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(57) Die vorliegende Erfindung betrifft Syntheseen- 
zyme fur die Herstellung von Coniferylalkohol, Conife- 
rylaldehyd, Ferulasaure, Vanillin und Vanillinsaure, 
deren Verwendung bei der Herstellung von Coniferylal- 
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linsaure, fur diese Enzyme codierende DNA sowie mit 
dieser DNA transformierte Mikroorganismen. 
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Beschreibung 

Die vorliegende Erfindung betrifft Syntheseenzyme fur die Herstellung von Coniferylalkohol, Coniferylaldehyd, 
Ferulasaure, Vanillin und Vanillinsaure, deren Verwendung bei der Herstellung von Coniferylalkohol, Coniferylaldehyd, 
5 Ferulasaure, Vanillin und Vanillinsaure, fur diese Enzyme codierende DNA sowie mit dieser DN A transformierte Mikro- 
organismen. 

Der erste Artikel der sich mit dem Abbau von Eugenol befaBt, stammt von Tadasa 1 977 (Degradation of eugenol 
by a microorganism. Agric. Biol. Chem. 41, 925-929). In ihm wird der Abbau von Eugenol mit einem Bodenisolat, ver- 
mutlich Corynebacterium sp., beschrieben. Es wurden dabei Ferulasaure und Vanillin als intermediate Abbauprodukte 
w gefunden und der weitere Abbau uber Vanillinsaure und Protocatechusaure postuliert. 

1983 erschien von Tadasa und Kyahara (Initial Steps of Eugenol Degradation Pathway of a Microorganism. Agric. 
Biol. Chem. 47, 2639-2640) ein weiterer Artikel, uber die ersten Schritte des Eugenolabbaus; diesmal mit einem Bode- 
nisolat, das als Pseudomonas sp. identif iziert wurde. In ihm wurden Eugenoloxid, Coniferyalkohol und Coniferylaldehyd 
als Zwischenstufen zur Bildung von Ferulasaure beschrieben. 
15 Ebenfalls 1983 erschien von Sutherland et at. (Metabolism of cinnamic, p-coumaric, and ferulic acids by Strepto- 
myces setonii . Can. J. Microbiol. 29, 1253-1257) ein Bericht uber den Metabolismus von Zimtsaure, p-Coumarsaure 
und Ferulasaure in Streptomyces setonii . Dabei wird Ferulasaure uber Vanillin, Vanillinsaure und Protocatechusaure 
abgebaut. Dabei wurden die ringspaltenden Enzyme Catechol 1 ,2-Dioxygenase und Protocatechuat 3,4-Dioxygenase 
im zellfreien Extrakt indirekt nachgewiesen. 
20 Otuk (Degradation of Ferulic Acid by Escherichia coli. J. Ferment. Technol. 63, 501-506) berichtete 1985 uber den 
Abbau von Ferulasaure mit einem Escherichia coli Stamm, der von verrottender Rinde isoliert wurde. Auch hier wurden 
Vanillin, Vanillinsaure und Protocatechusaure als Abbauprodukte nachgewiesen. 

1987 erschien eine deutsche Patentanmeldung der BASF (Verfahren zur Gewinnung von Coniferylaldehyd und 
Mikroorganismus dafiir; DE-A 3 606 398) fur ein Verfahren zur Herstellung von Coniferylaldehyd aus Eugenol mit einer 
25 Arthrobacter qlobiformis Mutante. Dabei war das Ziel die Gewinnung von naturlichem Vanillin. 

Abraham et al. (Microbial transformations of some terpenoids and natural compounds, in: Bioflavour '87, pp 399- 
413) berichten auf der Bioflavor '87 uber die Verstoffwechslung von Eugenol mit verschiedenen Mikroorganismen. 
Dabei wurden bei der Verwendung von Pilzen vor allem Dimere gefunden, und nur bei Verwendung von Isoeugenol bil- 
det Aspergillus niaer ATCC 9142 auch Vanillin. 
30 1988 wurde von Omori et al. (Protocatechuic acid production from trans-ferulic acid by Pseudomonas sp. HF-1 
mutants defective in protocatechuic acid catabolism. Appl. Microbiol. Biotechnol. 29, 497-500) ein Verfahren zur Gewin- 
nung von Protocatechusaure mit einer Mutante einer Pseudomonas sp. HF-1 beschrieben. Als Zwischenprodukt wird 
nur Vanillinsaure erwahnt. 

Der Metabolismus von Ferulasaure mit zwei Pilzen, Paecilomyces variotii und Pestalotia palmarum wurde 1989 
35 von Rahouti et al. (Metabolism of ferulic acid by Paecilomyces variotii and Pestalotia palmarum. Appl. Environ. Micro- 
biol. 55, 2391-2398) beschrieben. Dabei wurde der Abbau uber 4-Vinylguajacol und Vanillin zur Vanillinsaure postuliert. 

1990 erscheinen zwei japanische Patentanmeldung von Hasegawa uber eine neue Pseudomonas sp. und ein 
Dioxygenase Enzym (Novel Pseudomonas sp. and dioxygenase enzyme. JP 2195-871. 25. 10.88-JP-267 284 
(02.08.90) 09.03.89 as 0551 11), und uber eine neue Methode zur Herstellung eines Aldehyds, wie z.B. Vanillin (A new 

40 method for the preparation of aldehyde e.g. vanillin. JP 2200-192:25.10.88-JP-267 285 (08.08.90) 09.03.89 as 
055112). Dabei wird aber nicht von Eugenol ausgegangen, sondern von verschiedenen Edukten wie Isoeugenol und 
Coniferylalkohol. Es besteht auch keine Ubereinstimmung zwischen der dort beanspruchten Dioxygenase und den hier 
beanspruchten Enzymen. 

In (Production of natural vanillin by microbial oxidation of eugenol or isoeugenol. EP-A 405 197) wurden Bakterien 
45 der Gattungen Serratia . Enterobacter oder Klebsiella zur mikrobiellen Oxidation von Eugenol und Isoeugenol verwen- 
det. Der ProzefS brachte aber nur mit Isoeugenol gute Umsetzungen, mit Eugenol lief er nur sehr schlecht. 

1991 erschien die EP-A 453 368 (Production de vanilline par bioconversion de pr^curseurs benzeniques), bei der 
mit einem Basidiomyceten, Pvcnoporus cinnabarinus CNCM I-937 und I-938, mit Vanillinsaure und Ferulasaure die 
Umsetzung zu Vanillin beobachtet wurde. 

so Takasago Perfumery Company erhielt 1992 ein japanisches Patent (Preparation of vanillin, coniferyl-alcohol and - 
aldehyde, fenilic acid and vanillyl alcohol - by culturing mutant belonging to Pseudomonas genus in presence of euge- 
nol which is oxidatively decomposed; JP 05 227 980 21.02.1992) fur die Herstellung von Vanillin, Coniferylalkohol, 
Coniferylaldehyd, Ferulasaure und Vanilylalkohol aus Eugenol mit einer Pseudomonas Mutante. 

Ebenfalls 1992 wurde das US-Patent 5 128 253 von Labuda et al. (Kraft-Generals Foods) (Bioconversion Process 

55 for the production of vanillin) erteilt, in dem eine Biotransformation zur Herstellung von Vanillin beschrieben wird. Aus- 
gangsmaterial ist auch hier Ferulasaure, verwendete Organismen sind Aspergillus niger. Rhodotoruta glutinis und 
Corynebacterium qlutamicum . Entscheidend dabei ist die Verwendung von Sulfhydryl-Komponenten (z.B. Oithio- 
threitol) im Medium. 1 993 erscheint der Inhalt des Patents auch als Publikation (Microbial bioconversion process for the 
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production of vanillin; Prog. Flavour Precursor Stud. Proc. Int. Conf. 1992, 477-482). 

Die EP-A 542 348 (Process of preparation of phenylaldehydes) beschreibt ein Verfahren zur Herstellung von Phe- 
nylaldehyden mitdem Enzym Lipoxygenase. Substrate sind u.a. Eugenol und Isoeugenol. Wir haben versucht, das Ver- 
fahren mit Eugenol nachzuarbeiten. konnten aber die Umsetzungen nicht bestatigen. 

5 Die DE-A 4 227 076 (Verfahren zur Herstellung substituierter Methoxyphenole und dafur geeigneter Mikroorganis- 

mus) beschreibt die Herstellung substituierter Methoxyphenole mit einer neuen Pseudomonas sp. Ausgangsmaterial 
ist hier Eugenol und die Produkte sind Ferulasaure, Vanillinsaure, Coniferylalkohol und Coniferylaldehyd. 

Ebenfalls 1 995 erscheint ein umfangreiches Review Liber die BiotransformationsmSglichkeiten mit Ferulasaure von 
Rosazza et al. (Biocatalytic transformation of ferulic acid: an abundant aromatic natural product; J. Ind. Microbiol 15, 

10 457-471). 

Die vorliegende Erfindung betrifft nun Syntheseenzyme fur Coniferylalkohol, Coniferylaldehyd, Ferulasaure, Vanil- 
lin und Vanillinsaure aus Eugenol. 

Syntheseenzyme gemaB der Erfindung sind beispielsweise die 

15 a) Eugenol-Hydroxylase, 

b) Coniferylalkohol-Dehydrogenase, 

c) Coniferylaldehyd-Dehydrogenase, 

d) Ferylasauredeacylase und die 

e) Vanillin-Dehydrogenase. 

20 

Weiterhin betrifft die Erfindung DNA codierend fur die genannten Enzyme und Cosmidklone enthaltend diese DNA 
sowie Vektoren enthaltend diese DNA und Mikroorganismen transformiert mit der DNA bzw. den Vektoren. Sie betrifft 
auch die Verwendung der DNA zur Transformation von Mikroorganismen zur Herstellung von Coniferylalkohol, Conife- 
rylaldehyd, Ferulasaure, Vanillin und Vanillinsaure. Die Erfindung betrifft auch Teilsequenzen dieser DNA sowie funk- 
25 tionelle Aquivalente. Unter funktionellen Aquivalenten sind solche Derivate zu verstehen, bei denen einzelne 
Nucleobasen ausgetauscht wurden (Wobbelaustausche), ohne die Funktion zu andern. Auch auf Proteinebene konnen 
AminosSuren ausgetauscht werden, ohne daB es eine Veranderung der Funktion zur Folge hat. 

Ebenso betrifft die Erfindung die einzelnen Herstellungsschritte der Herstellung von Coniferylalkohol, Coniferylal- 
dehyd, Ferulasaure, Vanillin und Vanillinsaure aus Eugenol, also konkret: 

30 

a) das Verfahren zur Herstellung von Coniferylalkohol aus Eugenol, das in Anwesenheit von Eugenolhydroxylase 
stattfindet; 

b) das Verfahren zur Herstellung von Coniferylaldehyd aus Coniferylalkohol, das in Anwesenheit von Coniferylal- 
35 kohol-Dehydrogenase stattfindet; 

c) das Verfahren zur Herstellung von Ferulasaure aus Coniferylaldehyd, das in Anwesenheit von Coniferylaldehyd- 
Dehydrogenase stattfindet; 

40 d) das Verfahren zur Herstellung von Vanillin aus Ferulasaure. das in Anwesenheit von Ferulasauredeacylase statt- 
findet; 

e) das Verfahren zur Herstellung von Vanillinsaure aus Vanillin, das in Anwesenheit von Vanillin-Dehydrogenase 
stattfindet. 

45 

Von dem Eugenol verwertenden Stamm Pseudomonas sp. HR 199 (DSM 7063) wurden nach NMG-Mutagenese 
Mutanten erhalten, die Defekte in einzelnen Schritten des Eugenol-Katabolismus aufweisen. Ausgehend von partiell 
Eco RI-verdauter Gesamt-DNA des Pseudomonas sp. HR 199 Wildtyps wurde eine Genbank in dem Cosmid pVK100 
angelegt, welches tiber ein breites Wirtsspektrum verfiigt und auch in Pseudomonaden stabil repliziert wird. Die 

so Hybridcosmide wurden nach Verpackung in ^-Phagenpartikel nach E. cgii S1 7-1 transduziert. Die Genbank umfaBte 
1330 rekombinante E. coji S17-1 Klone. Das Hybridcosmid eines jeden Klons wurde konjugativ in zwei Eugenol -nega- 
tive Mutanten (Mutanten 6164 und 6165) des Stammes Pseudomonas sp. HR 199 ubertragen und auf eine mQgliche 
Komplementationseigenschaft iiberpruft. Dabei wurden zwei Hybridcosmide (pE207 und pE115) identifiziert, deren 
Erhalt die Mutante 6165 wieder in die Lage versetzten, Eugenol zu verwerten. Ein Hybridcosmid (pE5-1) fiihrte zur 

55 Komplementation d er Mutante 61 64. 

Die komplementierende Eigenschaft der Plasmide pE207 und pE115 konnte auf ein 23 kbp EcoRI-Fragment 
(E230) zuriickgefuhrt werden. Von diesem Fragment wurde eine physikalische Karte angefertigt und das Fragment 
wurde vollstandig sequenziert. Auf einem 1 1 ,2 kbp Hjndlll-Subfragment (H1 10) wurden die Gene vanA und vanB loka- 
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lisiert, die fur die Vanillat-Demethylase codieren. Ein weiterer offener Leserahmen (ORF) wies Homologie zur y-Gluta- 
mylcystein Synthetase aus Escherichia coli auf. Zwischen diesem ORF und dem vanB -Gen wurde ein weiterer ORF 
identifiziert, der Homologie zu Formaldehyd-Dehydrogenasen aufwies. Zwei weitere ORF wiesen Homologien zur 
Cytochrom C- bzw. Flavoprotein-Untereinheit der p-Cresol Methylhydroxylase aus Pseudomonas putida auf und codie- 

5 ren im Stamm Pseudomonas sp. HR 199 fur eine bisher noch nicht beschriebene Eugenol Hydroxylase, welche Euge- 
nol, in Analogie zum Reaktionsmechanismus der p-Cresol Methylhydroxylase, iiber ein Chinon-Methid-Derivat zu 
Coniferylalkohol umsetzt. Zwischen den Genen der beiden Untereinheiten der Eugenol Hydroxylase wurde ein weiterer 
ORF unbekannter Funktion identifiziert. Auf einem 5.0 kbp Hjndlll-Subfragment (H50) wurde ein ORF identifiziert, der 
Homologie zur Lignostilben-a,p-Dioxygenase aufwies. Daneben wurde ein ORF identifiziert, welcher Homologie zu 

10 Alkohol-Dehydrogenasen aufwies. Auf einem 3,8 kbp Hjndlll/EcoRI-Subf ragment wurde das Strukturgen vdh der Vanil- 
lin Dehydrogenase identifiziert. Stromaufwarts von diesem Gen wurde ein ORF mit Homologie zu Enoyl-CoA Hydrat- 
asen aus unterschiedlichen Organismen lokalisiert. 

Die komplementierende Eigenschaft des Plasmids pE5-1 konnte auf den gemeinsamen Erhalt der 1 .2 und 1 .8 kbp 
EeoRI-Fragmente (E12 und E18) zuriickgefuhrt werden. Fragment E 12 wurde vollstandig, Fragment E 18 wurde teil- 

75 weise sequenziert. Auf diesen Fragmenten wurde das Strukturgen cadh der Coniferylalkohol Dehydrogenase lokali- 
siert, welches eine EcoRI-Schnittstelle aufwies. Das Enzym wurde mittels chromatographischer Methoden aus der 
loslichen Fraktion des Rohextraktes auf Eugenol gewachsener Zellen von Pseudomonas sp. HR 199 isoliert. Von der 
bestimmten N-terminalen Aminosauresequenz wurde eine Oligonukleotidsequenz abgeleitet. Eine entsprechende 
DNA-Sonde hybridisierte mit Fragment E12, auf welchem der den N-Terminus codierende Bereich des cadh Gens loka- 

20 lisiert war. 

Eine Eugenol- und Ferulasaure-negative Mutante (Mutante 6167) Iie3 sich durch den Erhalt eines 9,4 kbp EcoRI- 
Fragments (E 94) des Hybridcosmids pES-1 komplementieren. Von diesem Fragment wurde eine physikalische Karte 
angefertigt. Die komplementierende Eigenschaft lieG sich auf ein 1 ,9 kbp EcoRI/Hindlll-Subfragment eingrenzen. Die- 
ses Fragment wies unvollstandige ORF (erstreckten sich Ober die Eco RI- bzw. Hindlll-Schnittstelle) mit Homologien zu 

25 Acetyl-CoA Acetyltransferasen unterschiedlicher Organismen bzw. mit der "Medium-chain acyl-CoA Synthetase" aus 
Pseudomonas oleovorans auf. Das Fragment E 94 wurde vollstandig sequenziert. Stromabwarts des zuvor genannten 
ORFs befand sich ein ORF mit Homologie zu p-Ketothiolasen. In zentraler Lage auf Fragment E 94 wurde das Struk- 
turgen der Coniferylaldehyd-Dehydrogenase ( caldh) lokalisiert. Das Enzym wurde mittels chromatographischer Metho- 
den aus der loslichen Fraktion des Rohextraktes auf Eugenol gewachsener Zellen von Pseudomonas sp. HR 199 

30 isoliert. 

Die konjugative Ubertragung des Hybridcosmids pE207 in eine Vielzahl von Pseudomonas -Stam men fiihrte zur 
heterologen Expression der Gene vanA . vanB. ydh und der Eugenol-Hydroxylase-Gene in den erhaltenen Transkonju- 
ganten. Ein Stamm wurde durch den Erhalt des Plasmids zum Wachstum mit Eugenol als C- und Energiequelle befa- 
higt. 

35 

Material und Methoden 

Wachstumsbedingungen der Bakterien. Stamme von Escherichia coli wurden bei 37°C in Luria-Bertani (LB) 
Oder M9-Mineralmedium (Sambrook, J.E.F. Fritsch und T. Maniatis. 1989. Molecular cloning: a laboratory manual. 2. 

40 Aufl., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York) angezogen. Stamme von Pseudomonas sp. 
und Alcaligenes eutrophus wurden bei 30°C in Nutrient Broth (NB, 0,8 Gew.- %) Oder in Mineralmedium (MM) (Schle- 
gel, H.G. etal. 1961. Arch. Mikrobiol. 38: 209-222) angezogen. Ferulasaure, Vanillin, Vanillinsaure und Protocatechu- 
saure wurden in Dimethylsulfoxid gelost, und dem jeweiligen Medium in einer Endkonzentration von 0,1 Gew.-% 
zugesetzt. Eugenol wurde dem Medium direkt in einer Endkonzentration von 0,1 Vol. -% zugesetzt, bzw. in den Deckel 

45 von MM-Agarplatten auf Filterpapier (Rundfilter 595, Schleicher & Schuell, Dassel, Deutschland) appliziert. Bei der 
Anzucht von Transkonjuganten von Pseudomonas sp. wurde Tetracyclin und Kanamycin in Endkonzentrationen von 25 
Hg/ml bzw. 300 ng/ml eingesetzt. 

Nitrosoguanidin-Mutagenese. Die Nitrosoguanidin-Mutagenese von Pseudomonas sp. HR 199 wurde mit Modi- 
fikationen nach Miller (Miller, J.H. 1972. Experiments in molecular genetics. Cold Spring Harbor Laboratory, Cold 

so Spring Harbor, New York) durchgefuhrt. An Stelle des Citrat- Puffers kam Kalium-Phosphat (KP)-Puffer (100 mM, pH 
7,0) zum Einsatz. Die Endkonzentration von N-Methyl-N'-Nitro-N-Nitrosoguanidin betrug 200 ng/ml. Die erhaltenen 
Mutanten wurden hinsichtlich des Verlustes der Fahigkeit, Eugenol, Ferulasaure, Vanillin und Vanillinsaure als Wachs- 
tumssubstrate nutzen zu kdnnen, gescreent. 

Qualitativer und quantitativer Nachweis von Stoffwechselintermediaten in Kuituruberstanden. Kulturuber- 

55 stande wurden direkt bzw. nach Verdunnung mit zweifach destilliertem Wasser mittels Hochdruck-Flussigkeits-Chro- 
matographie (Knauer-HPLC) analysiert. Die Chromatographic erfolgte an Nucleosil-100 C18 (7 urn, 250 x 4 mm). Als 
Losungsmittel diente 0,1 Vol.-% Ameisensaure und Acetonitril. 

Reinigung der Coniferylalkohol-Dehydrogenase und der Coniferylaldehyd-Dehydrogenase. Die Aufreinigun- 
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gen erfolgten bei 4°C. 

Rohextrakt. Auf Eugenol angezogene Zellen von Pseudomonas sp. HR 199 wurden in 10 mM Natriumphosphat- 
Puffer, pH 7,5 gewaschen, im gleichen Puffer resuspendiert und durch zweimalige Passage einer French-Presse (Ami- 
con, Silver Spring, Maryland, USA) bei einem Druck von 1 000 psi aufgeschlossen. Das Zellhomogenat wurde einer 
s Ultrazentrifugation (1 h, 100 000 x g, 4°C) unterzogen, wodurch die Ibsliche Fraktion des Rohextraktes ais Uberstand 
erhalten wurde. 

Anionenaustauschchromatographie an DEAE-Sephacel. Die losliche Fraktion des Rohextraktes wurde uber 
Nacht gegen 10 mM Natriumphosphat-Puffer, pH 7,5 mit 100 mM NaCI dialysiert. Das Dialysat wurde auf eine mit 10 
mM Natriumphosphat-Puffer, pH 7,5 mit 100 mM NaCI aquilibrierte DEAE-Sephacel-Saule (2,6 cm x 35 cm, Bettvolu- 

io men [BV]: 186 ml) mit einer DurchfluBrate von 0,8 ml/min aufgetragen. Die Saule wurde mit zwei BV 10 mM Natrium- 
phosphat-Puffer. pH 7,5 mit 100 mM NaCI gespiilt. Die Elution der Coniferylalkohol-Dehydrogenase (CADH) und der 
Coniferylaldehyd- Dehydrogenase (CALDH) erfolgte mit einem linearen Salzgradient von 100 bis 500 mM NaCI in 10 
mM Natriumphosphat-Puffer, pH 7,5 (2 x 150 ml). Es wurden 5 ml-Fraktionen aufgefangen. Fraktionen mit hoher 
CADH- bzw. CALDH-Aktivitat wurden zum jeweiigen DEAE-Pool vereinigt. 

is Gelf iltrationschromatographie an Sephadex G200. Der CADH-DEAE-Pool wurde in einer 50 ml Amicon Ultrafil- 
trationskammer uber eine Diaflo Ultrafiltrationsmembran PM 30 (beide Fa. AMICON CORP., Lexington, USA) bei einem 
Druck von 290 kPa auf ein Volumen eingeengt, welches ca. 2 % des Sephadex G200-BV entsprach. Die eingeengte 
ProteinlSsung wurde auf eine mit 10 mM Natriumphosphat-Puffer, pH 7,5 mit 100 mM NaCI aquilibrierte Sephadex 
G200-Saule (BV: 1 38 ml) aufgetragen und mit einer FluBrate von 0,2 ml/min mit dem gleichen Puffer eluiert. Es wurden 

20 2 ml-Fraktionen aufgefangen. Fraktionen mit hoher CADH-Aktivitat wurden zum Sephadex-G200-Pool vereinigt. 

Hydrophobe Interaktionschromatographie an Butyl-Sepharose 4B. Der CADH-Sephadex-G200-Pool wurde 
auf 3 M NaCI eingestellt und anschlieBend auf eine mit 10 mM Natriumphosphat-Puffer, pH 7,5 mit 3 M NaCI aquili- 
brierte Butyl-Sepharose 4B-Saule (BV: 48 ml) aufgetragen (FluBrate: 0,5 ml/min). Die Saule wurde anschlieBend mit 2 
BV 10 mM Natriumphosphat-Puffer, pH 7,5 mit 3 M NaCI gewaschen (FluBrate: 1,0 ml/min). Die Elution der CADH 

25 erfolgte mit einem linearen abfallenden NaCI-Gradienten von 3 bis 0 M NaCI in 10 mM Natriumphosphat-Puffer, pH 7,5 
(2 x 50 ml). Es wurden 4 ml-Fraktionen aufgefangen. Fraktionen mit hoher CADH-Aktivitat wurden zum HIC-Pool verei- 
nigt und wie oben beschrieben eingeengt. 

Chromatographie an Hydroxylapatit. Der CALDH-DEAE-Pool wurde in einer 50 ml Amicon Ultrafiltrationskam- 
mer uber eine Diaflo Ultrafiltrationsmembran PM 30 (beide Fa. AMICON CORP., Lexington, USA) bei einem Druck von 

30 290 kPa auf 10 ml eingeengt. Die eingeengte Proteinlosung wurde auf eine mit Puffer (10 mM NaCL in 10 mM Natri- 
umphosphat-Puffer, pH 7,0) aquilibrierte Hydroxylapatit-Saule (BV: 80 ml) aufgetragen (FluBrate: 2 ml/min). Die Saule 
wurde anschlieBend mit 2,5 BV Puffer gewaschen (FluBrate: 2 ml/min). Die Elution der CALDH erfolgte mit einem linea- 
ren ansteigenden Natriumphosphat-Gradienten von 10 bis 400 mM NaP (jeweils mit 10 mM NaCL) (2 x 100 ml). Es wur- 
den 10 ml-Fraktionen aufgefangen. Fraktionen mit hoher CALDH-Aktivitat wurden zum CALDH-HA-Pool vereinigt. 

35 Gelf iltrationschromatographie an Superdex HR 200 10/30. Der CALDH-HA-Pool wurde auf 200 (il eingeengt 
(Amicon Ultrariltrationskammer, Ultrafiltrationsmembran PM 30), und auf eine mit 10 mM Natriumphosphat-Puffer, pH 
7,0 aquilibrierte Superdex HR 200 10/30-Saule (BV: 23,6 ml) aufgetragen. Die CALDH wurde mit einer FluBrate von 0,5 
ml/min mit dem gleichen Puffer eluiert. Es wurden 250 (il-Fraktionen aufgefangen. Fraktionen mit hoher CALDH-Aktivi- 
tat wurden zum CALDH-Superdex-Pool vereinigt. 

40 Bestimmung der Coniferylalkohol-Dehydrogenase-Aktivitat. Die Bestimmung der CADH-Aktivitat erfolgte bei 
30°C durch einen optisch enzymatischen Test nach Jaeger et al. (Jaeger, E., L. Eggeiing und H. Sahm. 1982. Current 
Microbiology. 6: 333-336) mit Hilfe eines ZEISS PM 4 Spektralphotometers mit angeschlossenem TE-Wandler (beide 
Fa. ZEISS, Oberkochen, Deutschland) und Schreiber. Der Reaktionsansatz mit einem Volumen von 1 ml enthielt 0,2 
mmol Tris/HCI (pH 9,0), 0,4 nmol Coniferylalkohol, 2 nmol NAD, 0,1 mmol Semicarbazid und Enzymlosung 

45 ("Tris"=Tris(hydroxymethyl)-aminomethan). Die Reduktion von NAD wurde bei k = 340 nm verfolgt (e = 6,3 cm 2 /(imol). 
Die Enzymaktivitat wurde in Einheiten (U) angegeben, wobei 1 U der Enzymmenge entspricht, die 1 nmol Substrat pro 
Minute umsetzt. Die Proteinkonzentrationen in den Proben wurden nach Lowry et al. (Lowry, O.H., N.J. Rosebrough, 
A.L. Farr und R. J. Randall. 1951. J. Biol. Chem. 193: 265-275) bestimmt. 

Bestimmung der Coniferylaldehyd-Dehydrogenase-Aktivitat. Die Bestimmung der CALDH-Aktivitat erfolgte 

so bei 30°C durch einen optisch enzymatischen Test mit Hilfe eines ZEISS PM 4 Spektralphotometers mit angeschlosse- 
' nem TE-Wandler (beide Fa. ZEISS, Oberkochen, Deutschland) und Schreiber. Der Reaktionsanstatz mit einem Volu- 
men von 1 ml enthielt 10 mM Tris/HCI-Puffer (pH 8,8), 5,6 mM Coniferylaldehyd, 3 mM NAD und Enzymlosung. Die 
Oxidation von Coniferylaldehyd zu Ferulasaure wurde bei X = 400 nm verfolgt (e = 34 cm 2 /nmol). Die Enzymaktivitat 
wurde in Einheiten (U) angegeben. wobei 1 U der Enzymmenge entspricht, die 1 nmol Substrat pro Minute umsetzt. 

55 Die Proteinkonzentration in den Proben wurden nach Lowry et al. (Lowry, O. H., N.J. Rosebrough, A.L. Farr und R.J. 
Randall. 1951, J. Biol. Chem. 193:265-275) bestimmt. 

Electrophoretische Methoden. Die Auftrennung von proteinhaltigen Extrakten erfolgte in 7,4 Gew.-% Polyacryl- 
amidgelen unter nativen Bedingungen nach der Methode von Stegemann et al. (Stegemann et al. 1 973. Z. Naturforsch. 
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28c: 722-732) und unter denaturierenden Bedingungen in 11,5 Gew.-% Polyacrylamidgelen nach der Methode von 
Laemmli (Laemmli, U.K. 1970. Nature (London) 227: 680-685). Zur unspezifischen Proteinfarbung wurde Serva Blue R 
verwendet. Zur spezifischen Anfarbung der Coniferylalkohol-, Coniferylaldehyd- und Vanillin-Dehydrogenase wurden 
die Gele fur 20 min in 100 mM KP-Puffer (pH 7,0) umgepuffert und anschlieBend bei 30°C im gleichen Puffer, dem 0,08 

5 Gew.-% NAD, 0,04 Gew.-% p-Nitroblau-Tetrazoliumchlorid, 0,003 Gew.-% Phenazine-Methosulfat und 1 mM des jewei- 
ligen Substrates zugesetzt worden war, inkubiert, bis entsprechende Farbbanden sichtbar wurden. 

Transfer von Proteinen aus Polyacrylamidgelen auf PVDF-Membranen. Proteine wurden aus SDS-Polyacryl- 
amidgelen mit Hilfe eines Semidry-Fastblot Gerates (B32/33, Biometra, Gottingen, Deutschland) nach Herstelleranga- 
ben auf PVDF-Membranen (Waters-Milipore, Bedford. Mass., USA) Cibertragen. 

10 Bestimmung von N-terminalen Aminosauresequenzen. Die Bestimmung von N-terminalen Aminosaurese- 
quenzen erfolgte mit Hilfe eines Protein Peptide Sequenzers (Typ 477 A, Applied Biosystems, Foster City, USA) und 
eines PTH-Analysers nach Herstellerangaben. 

Isolierung und Manipulation von DNA. Die Isolierung von genomischer DNA erfolgte nach der Methode von Mar- 
mur (Marmur, J. 1961 . J. Mol. Biol. 3: 208-218). Megaplasmid-DNA wurde nach der Methode von Nies et al. (Nies, D., 

15 et al. 1987. J. Bacteriol. 169: 4865-4868) isoliert. Die Isolierung und Analyse von anderer Plasmid-DNA bzw. von DNA- 
Restriktionsfragmenten, die Verpackung von Hybridcosmiden in X-Phagenpartikel und die Transduktion von E. coli 
erfolgte nach Standardmethoden (Sambrook, J.E.F. Fritsch und T. Maniatis. 1989. Molecular cloning: a laboratory 
manual. 2. Auf I., Cold Spring Harbor Laboratory Press, Cold Spring Habor, New York). 

Transfer von DNA. Die Preparation und Transformation von kompetenten Escherichia coli -Zellen erfolgte nach der 

20 Methode von Hanahan (Hanahan, D. 1983. J. Mol. Biol. 166: 557-580). Konjugativer Plasmidtransfer zwischen Plasmid- 
tragenden Escherichia coli Sl7-1-Stammen (Donor) und Pseudomonas sp.-Stammen (Rezipient) bzw. Alcaligenes 
eutrophus (Rezipient) erfolgte auf NB-Agarplatten nach der Methode von Friedrich et al. (Friedrich, B. et al. 1981. J. 
Bacteriol. 147: 198-205) Oder durch eine "Minikomplementatrons-Methode" auf MM-Agarplatten mit 0,5 Gew.-% Gluco- 
nat als C-Quelle und 25 u.g/ml Tetracyclin oder 300 ng/ml Kanamycin. Dabei wurden Zellen des Rezipienten in einer 

25 Richtung als Impfstrich aufgetragen. Nach 5 min wurden dann Zellen der Donor-Stamme als Impfstriche aufgetragen, 
wobei der Rezipienten-lmpfstrich gekreuzt wurde. Nach einer Inkubation fur 48 h bet 30°C wuchsen die Transkonjugan- 
ten direkt hinter der Kreuzungsstelle, wohingegen weder Donor- noch Rezipienten-Stamm zum Wachstum in der Lage 
war. 

Hybridisierungsexperimente. DNA-Restriktionsfragmente wurden in einem 0,8 Gew.-% Agarose-Gel in 50 mM 
30 Tris- 50 mM Borsaure- 1,25 mM EDTA-Puffer (pH 8,5) elektrophoretisch aufgetrennt (Sambrook, J.E.F. Fritsch und T. 
Maniatis. 1989. Molecular cloning: a laboratory manual. 2. Auf I., Cold Spring Harbor Laboratory Press, Cold Spring 
Habor, New York). Die Ubertragung der denaturierten DNA aus dem Gel auf eine positiv geladene Nylonmembran 
(PorengroUe: 0,45 urn, Pall Filtrationstechnik, Dreieich, Deutschland), die anschlieBende Hybridisierung mit biotinylier- 
ten bzw. 32 P-markierten DNA-Sonden und die Herstellung dieser DNA-Sonden erfolgten nach Standardmethoden 
35 (Sambrook, J.E.F. Fritsch und T. Maniatis. 1989. Molecular cloning: a laboratory manual. 2. Aufl. Cold Spring Harbor 
Laboratory Press, Cold Spring Habor, New York). 

Synthese von Oligonukleotiden. Ausgehend von Desoxynukleosid-Phosphoramiditen wurden Oligonukleotide 
im0,2 nmol-MaBstab synthetisiert (Beaucage, S. L, and M.H. Caruthers. 1981. Tetrahedron Lett. 22: 1859-1862). Die 
Synthese erfolgte in einem Gene Assembler Plus nach Herstellerangaben (Pharmacia-LKB, Uppsala, Schweden). Die 
40 Abspaltung von Schutzgruppen erfolgte durch eine 1 5 h Inkubation bei 55°C in 25 Vol.-% waBriger Ammoniak-Losung. 
Die Oligonukleotide wurden abschlieBend durch Chromatographie an einer NAP-5-Saule (Pharmacia-LKB, Uppsala, 
Schweden) gereinigt. 

DNA-Sequenzierung. Die Bestimmung von NuWeotidsequenzen erfolgte nach der Didesoxy-Kettenabbruch- 
Methode von Sanger et al. (Sanger et al. 1977. Proc. Natl. Acad. Sci. USA 74: 5463-5467) mit [a- 35 SIdATP und einem 

45 T7-Polymerase-Sequencing-Kit (Pharmacia-LKB). Dabei wurde 7-Desazaguanosin-5'-Triphosphat an Stelle von dGTP 
verwendet (Mizusawa, S. et al. 1986. Nucleic Acids Res. 14: 1319-1324). Die Produkte der Sequenzierreaktionen wur- 
den in einem 6 Gew.-% Polyacrylamid-Gel in 100 mM Tris/HCI-, 83 mM Borsaure-, 1 mM EDTA-Puffer (pH 8,3) mit 42 
Gew.-% Harnstoff aufgetrennt, wobei eine S2-Sequenzier-Apparatur (GIBCO/BRL, Bethesda Research Laboratories 
GmbH, Eggenstein, Deutschland) nach Vorschrift des Herstellers zum Einsatz kam. Nach der Elektrophorese wurden 

so die Gele 30 min in 10 Vol.-% Essigsaure inkubiert und nach kurzem Spiilen in Wasser fur 2 h bei 80°C getrocknet. Fur 
die Autoradiographic der getrockneten Gele fanden Kodak X-OMAT AR-R6ntgenfilme (Eastman Kodak Company, 
Rochester, NY, USA) Verwendung. Daneben wurden DNA-Sequenzen auch "nicht-radioaktiv" mit einem "LI-COR DNA- 
Sequencer Modell 4000L" (LI-COR Inc., Biotechnology Division, Lincoln, NE-USA) unter Verwendung eines "Thermo 
Sequenase fluorescent labelled primer cycle sequencing kit with 7-deaza-dGTP" (Amersham Life Science, Amersham 

55 International pic. Little Chalfont, Buckinghamshire, England) jeweils nach Vorschrift des Herstellers bestimmt. 

Es kamen unterschiedliche Sequenzierungsstrategien zur Anwendung: Mit Hilfe von synthetischen Oligonukleoti- 
den wurde nach der "Primer-hopping Strategie" von Strauss et al. (Strauss, E. C. et al. 1986. Anal. Biochem. 1 54: 353- 
360) sequenziert. Bei ausschlieGlicher Verwendung von "Universal-" und "Reverse-Primer" kamen Hybridplasmide als 



6 



BNSDOCID: <EP 0845532A2_I_> 



EP 0 845 532 A2 



"Template-ONA" zum Einsatz, deren Insert-DNA-Fragmente mit Hilfe eines "Exo lll/Mung Bean Nuklease Deletions" - 
Kits (Stratagene Cloning Systems, La Jolla, Cal., USA) nach Herstellerangaben unidirektional verkurzt worden waren. 

Chemikalien, Biochemikalien und Enzyme. Restriktionsenzyme, T4 DNA-Ligase. Lambda-DNA und Enzyme 
bzw. Substrate fur die optisch enzymatischen Tests wurden von C. F. Boehringer & SShne (Mannheim, Deutschland) 
5 oder von GIBCO/BRL (Eggenstein. Deutschland) bezogen. [a- 35 S]dATP und [y- 32 P]ATP kam von Amersham/Buchler 
(Braunschweig. Deutschland). Agarose vom Typ NA wurde von Pharmacia-LKB (Uppsala, Schweden) bezogen. Alle 
anderen Chemikalien waren von Haarmann & Reimer (Holzminden, Deutschland), E. Merck AG (Darmstadt, Deutsch- 
land), Fluka Chemie (Buchs. Schweiz), Serva Feinbiochemica (Heidelberg, Deutschland) oder Sigma Chemie (Deisen- 
hofen, Deutschland). 

10 

Beispiele 
Beispiel 1 

is Isolierung von Mutanten des Stammes Pseudomonas sp. HR 199 mit Defekten im Eugenol-Katabolismus 

Der Stamm Pseudomonas sp. HR 199 wurde einer Nitrosoguanidin-Mutagenese unterzogen mit dem Ziel, Mutan- 
ten mit Defekten im Eugenol-Katabolismus zu isolieren. Die erhaltenen Mutanten wurden bezuglich ihres Vermogens, 
Eugenol, Ferulasaure und Vanillin als C- und Energiequelle nutzen zu konnen, klassrfiziert. Die Mutanten 6164 und 
20 6165 waren nicht mehr in der Lage, Eugenol als C- und Energiequelle zu nutzen, vermochten jedoch wie der Wildtyp, 
Ferulasaure und Vanillin zu verwerten. Die Mutanten 6167 und 6202 waren nicht mehr in der Lage, Eugenol und Feru- 
lasaure als C- und Energiequelle zu nutzen, vermochten jedoch wie der Wildtyp, Vanillin zu verwerten. Die obenge- 
nannten Mutanten kamen bei den weiteren molekularbiologischen Analysen zum Einsatz. 

25 Beispiel 2 

Anlegen einer Pseudomonas sp. HR 199 Genbank im Cosmidvektor pVKlOO 

Die genomische DNA des Stammes Pseudomonas sp. HR 199 wurde isoliert und einer partiellen Restriktionsver- 
30 dauung mit EcoRI unterzogen. Die so erhaltene DNA-Praparation wurde mit EcoRI-geschnittenem Vektor pVK100 
ligiert. Die DNA-Konzentrationen lagen dabei relativ hoch, um die Entstehung konkatemerer Ligationsprodukte zu for- 
cieren. Die Ligationsansatze wurden in X-Phagenpartikel verpackt, mit denen anschlieBend E. coJi S1 7-1 transduziert 
wurde. Die Selektion der Transduktanten erfolgte auf Tetracyclin-haltigen LB-Agarplatten. Auf diese Weise wurden 
1330 Transduktanten erhalten, die uber unterschiedliche Hybridcosmide verfugten. 

35 

Beispiel 3 

Identifizierung von Hybridcosmiden, die essentielle Gene des Eugenol-Katabolismus beherbergen 

40 Die Hybridcosmide der 1330 Transduktanten wurden durch ein Minikomplementations-Verfahren konjugativ in die 
Mutanten 6164 und 6165 ubertragen. Die erhaltenen Transkonjuganten wurden auf MM-Platten mit Eugenol bezuglich 
ihres Vermogens, wieder auf Eugenol wachsen zu konnen (Komplementation der jeweiligen Mutante), untersucht. Die 
Mutante 6164 wurde durch den Erhalt des Hybridcosmids pE5-1 komplementiert, in welchem ein 1,2 kbp, ein 1 ,8 kbp, 
ein 3 kbp, ein 5,8 kbp und ein 9,4 kbp EcoRI-Fragment kloniert vorlag. Der dieses Hybridcosmid pE5-1 tragende E. coli 

45 S1 7-1 -Stamm wurde bei der Deutschen Sammlung von Mikroorganismen und Zellkulturen GmbH (DSM) unter der 
Nummer DSM 10440 hinterlegt. Die Mutante 6165 wurde jeweils durch den Erhalt der Hybridcosmide pE207 und 
pE1 15 komplementiert. Die komplementierende Eigenschaft war auf ein 23 kbp Eco RI-Fragment zuriickzufuhren, wel- 
ches in dem Hybridcosmid pE207 als alleiniges EcoRI-Fragment kloniert vorlag, wohingegen in dem Hybridcosmid 
pE1 15 zusatzlich noch ein 3 kbp und ein 6 kbp EcoRI-Fragment enthalten war. Der das Hybridcosmid pE207 tragende 

so E. cgJi S1 7-1 -Stamm wurde bei der DSM unter der Nummer DSM 10439 hinterlegt. 

Beispiel 4 

Analyse des 23 kbp EcoRI- Fragments (E230) des Hybridcosmids pE207 

55 

Das Fragment E230 wurde praparativ aus dem mit Eco RI-verdautem Hybridcosmid pE207 isoliert und mit Eco RI- 
verdauter pBluescript SK'-DNA ligiert. Mit dem Ligationsansatz wurde E. coJi XL1-Blue transformiert. Nach "Blau- 
WeiB"-Selektion auf X-Gal und IPTG enthaltenden LB-Tc-Amp-Agarplatten wurden "weiSe" Transformanden erhalten, 
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deren Hybridplasmide pSKE230 das Fragment E230 kloniert enthielten. Mit Hilfe dieses Plasmids und durch Einsatz 
unterschiedlicher Restriktionsenzyme wurde eine physikalische Karte des Fragments E230 angefertigt {Abb. 1). 

Der die Mutante 6165 komplementierende Bereich wurde durch Klonierung von Subfragmenten von E230 in den 
Vektoren pVK101 und pMP92, die beide uber ein weites Wirtsspektrum verfugen und auch in Pseudomonaden stabil 
sind, mit anschlieBender konjugativer Ubertragung in die Mutante 6165 auf ein 1,8 kbp Kpn l-Fragment (K18) einge- 
grenzt. Nach Klonierung dieses Fragments in pBluescript SK" wurde die Nukleotidsequenz bestimmt, wobei das Gen 
der Cytochrom C-Untereinheit der Eugenol-Hydroxylase identifiziert wurde. Das Genprodukt von 117 Aminosauren 
besaG N-terminal ein Leader-Peptid (MMNVNYKAVGASLLLAFISQGAWA) und wies eine 32,9 %ige Identitat (Ciber 
einen Bereich von 82 Aminosauren) mit der Cytochrom C-Untereinheit der p-Cresol Methylhydroxytase aus Pseudomo- 
nas putida (Mclntire et al. 1986. Biochemistry 25: 5975-5981) auf. 

Durch Klonierung der an K18 angrenzenden Kp_nl-Subfragmente von E230 in pBluescript SK" und Sequenzierung 
wurden weitere offene Leserahmen (ORF) identifiziert, wobei einer dieser ORFs fur die Flavoprotein-Untereinheit der 
Eugenol-Hydroxylase codiert und hohe Homologie zur Flavoprotein-Untereinheit der p-Cresol Methylhydroxylase aus 
Pseudomonas putida aufwies. Ein weiterer ORF wies hohe Homologien zur y-Glutamylcystein Synthetase (erstes 
Enzym in der Glutathion-Biosynthese) aus Escherichia colt (Watanabe et al. 1986. Nucleic Acids Res. 14: 4393-4400) 
auf. 

In der loslichen Fraktion des Rohextraktes von E. cpl (pSKE230) konnte durch spezifische Aktivitatsfarbung im 
Polyacrylamid-Gel Vanillin-Dehydrogenase nachgewiesen werden. Durch SubWonierung in pBluescript SK" und ent- 
sprechender Analyse loslicher Fraktionen der Rohextrakte von erhaltenen Transformanden konnte das Vanillin-Dehy- 
drogenase-Gen (ydh) auf einem 3,8 kbp Hind 1 1 1/ Eco R I -Subf raam ent von E230 lokalisiert werden. Die 
Nukleotidsequenz dieses Fragments wurde vollstandig bestimmt. Das Molekulargewicht der Vanillin-Dehydrogenase 
betrug 50 779, was durch SDS-Polyacrylamid-Gelektrophorese bestatigt wurde. Die Aminosauresequenz wies hohe 
Homologien zu anderen Aldehyd-Dehydrogenasen unterschiedlicher Herkunft auf. 

Stromaufwarts des vdh-Gens wurde ein weiterer ORF identifiziert, der Homologien zu Enoyl-CoA Hydratasen auf- 
wies. Das errechnete Molekulargewicht von 27 297 wurde durch SDS-Polyacrylamid-Gelelektrophorese bestatigt. 

Durch Sequenzierung des 5,0 kbp Hindlll-Subfraqments von E230, welches ebenfalls in pBluescript SK" kloniert 
worden war, wurde ein ORF mit hoher Homologie zur Lignostilben-a,f3-Dioxygenase aus Pseudomonas paucimobilis 
identifiziert. Durch vollstandige Sequenzierung des Fragments E 230 wurden zwei weitere ORFs identifiziert, die 
Homologien zu Formaldehyd-Dehydrogenasen (fdh) bzw. zu Alkohol-Dehydrogenasen (adh) aufwiesen (s. Abb. 1). 

Beispiel 5 

Analyse des die Mutante 6164 komplementierenden Bereichs des Hybridcosmids pE5-1 

Die Mutante 6164 wurde durch den Erhalt des Hybridcosmids pE5-1 komplementiert, welches ein 1,2 kbp (E12), 
ein 1,8 kbp (E18), ein 3 kbp (E30), ein 5,8 kbp (E58) und ein 9,4 kbp (E94) EcsRI-Fragment kloniert enthielt (Abb. 1). 
Durch Verdauung von pE5-l mit EcoRI und anschlieBender Religation wurde ein Derivat (pE106) dieses Hybridcos- 
mids erhalten, welches nur noch uber die Fragmente E12, E18 und E30 verfugte. Dieses Plasmid war jedoch nach kon- 
jugativer Ubertragung in die Mutante 6164 in der Lage, diese zu komplementieren, wodurch entsprechende 
Transkonjuganten wieder auf Eugenol als C- und Energiequelle wachsen konnten. 

Nach Verdauung des Plasmids pE106 mit Eco RI. gelelektrophoretischer Auftrennung des Verdauungsansatzes in 
einem 0,8 Gew.-% Agarose-Gel und Ubertragung der DNA auf eine Nylonmembran erfolgte eine Hybridisierung mit 
einer mit 32 P-markierten OligonuWeotid-Sonde mit der folgenden Sequenz: 

5'-ATG CAA CTC ACC AAC AAA AAA ATC GT-3' 

G G C T G G T 

G G C G G 

G T G G G 

G G G 

T G G 



Die Sequenz dieser Gensonde war aus der N-terminalen Aminosauresequenz der aus Pseudomonas sp. HR 199 
aufgereinigten Coniferylalkohol-Dehydrogenase(CADH) (s.u.) abgeleitet worden. Mit Hilfe dieser Sonde wurde der den 
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N-Terminus der CADH codierende Bereich des cadh -Gens auf Fragment E12 lokalisiert. Dieses Fragment und Teile 
des angrenzenden Fragments E 18 wurden ebenfalls sequenziert und somit die vollstandige Sequenz des cadh -Gens 
bestimmt. Die Von cadh abgeleitete Aminosauresequenz wies Homologien zu anderen Alkohol-Dehydrogenasen der 
Klasse I, Gruppe II (nach Matthew und Fewson. 1994. Critical Rev. Microbiol. 20(1): 13-56) auf. 

5 

Beispiel 6 

Reinigung und Charakterisierung der Coniferylalkohol-Dehydrogenase 

w Pseudomonas sp. HR 199 wurde auf Eugenol angezogen. Die Zellen wurden geerntet, gewaschen und mit Hilfe 
einer French-Presse aufgeschlossen. Die nach Ultrazentrifugation erhaltene losliche Fraktion des Rohextraktes wies 
eine spezifische Aktivitat von 0,24 U/mg Protein auf. Durch Chromatographie an DEAE-Sephacel wurde eine 11,7 
fache Anreicherung der CADH bei einer Ausbeute von 83,7 % erzielt. Durch Chromatographie an Sephadex G200 
wurde eine 6,8fache Anreicherung der CADH bei einer Ausbeute von 1 1 ,2 % erzielt. Durch Chromatographie an Butyl- 
is Sepharose 4B wurde eine 70,6 fache Anreicherung der CADH bei einer Ausbeute von 7,8 % erzielt. 

Durch diese Methode wurde ein Praparat erhalten, welches nach SDS-Polyacrylamid-Gelelektrophorese eine 
Bande bei 27 kDa ergab. Der Aufreinigungsfaktor betrug 64 bei einer Ausbeute von 0,8 %. 

Temperatur-Optimum und -Stabilitat 

20 

Das Temperatur-Optimum der von der CADH katalysierten Reaktion lag bei 42°C. Das Enzym war jedoch warme- 
empfindlich. Die Halbwertszeiten waren wie folgt: T 1/2 (34°C) = 5 min, T 1/2 (39°C) = 1 min, T 1/2 (42°C) <1 min. 

pH-Optimum 

25 

Das pH-Optimum fur die von der CADH katalysierten Reaktion lag bei pH 10,9 in 25 mM MOPS-Puffer. Bei hohe- 
ren pH-Werten wurde ein Aktivitatsverlust durch Denaturierung beobachtet. 

Apparentes Molekulargewicht 

30 

Das native Molekulargewicht der CADH wurde mit Hilfe der FPLC durch Gelf iltration an Superdex 200HR 1 0/30 mit 
54,9 kDa ermittelt, was eine ag-Untereinheitenstruktur nahelegt. 

N-terminale Aminosauresequenz 

35 

Die N-terminale Aminosauresequenz-Bestimmung des gereinigten Proteins ergab folgendes Ergebnis: 



40 I 5 10 15 20 

M Q L T N K K I V V V (G) V (S) ? (R) (I) ? (A) (E) 
(V) (V) 

45 

(Sequenz im Ein-Buchstaben-Code; ?: keine Angabe moglich; 0: unsicher; in der zweiten Zeile wurde eine ebenfalls 
mogliche Aminosaure angegeben) 

Beispiel 7 

so 

Reinigung und Charakterisierung der Coniferylaldehyd- Dehydrogenase 

Pseudomonas sp. HR199 wurde auf Eugenol angezogen. Die Zellen wurden geerntet. gewaschen und mit Hilfe 
einer French-Presse aufgeschlossen. Die nach Ultrazentrifugation erhaltene losliche Fraktion des Rohextraktes wies 
55 eine spezifische Aktivitat von 0,43 U/mg Protein auf. Durch Chromatographie an DEAE-Sephacel wurde eine 6,6-fache 
Anreicherung der CALDH, bei einer Ausbeute von 65,3 % erzielt. Durch Chromatographie an Hydroxylapatit wurde eine 
63-fache Anreicherung der CALDH, bei einer Ausbeute von 33 % erzielt. Durch Chromatographie an Superdex HR 200 
wurde eine 81 -fache Anreicherung der CALDH, bei einer Ausbeute von 13 % erzielt. Durch diese Methode wurde ein 
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Praparat erhalten, welches nach SDS-Polyacrylamid-Gelelektrophorese eine Bande bei ca. 49 kDa ergab. 

Temperatur-Optimum und -Stabilitat 

s Das Temperatur-Optimum der von der CALDH katalysierten Reaktion lag bei 26°C. Das Enzym war warmeemp- 

findlich. Die Halbwertzeiten waren wie folgt: T 1/2 (31°C) = 5 min, T 1/2 (34°C) = 2,5 min, T 1/2 (38°C) = 1 min. 

pH -Optimum 

10 Das pH-Optimum ftir die von der CALDH katalysierten Reaktion lag bei pH 8,8 in 100 mM Tris/HCI- Puffer. Bei die- 
sem pH-Wert ist das Enzym jedoch schon instabi) (87 % Aktivttatsverlust innerhalb von 5 min). Bei niedrigen pH-Werten 
ist das Enzym stabiler (z.B. pH 6,0: 50 % Aktivitatsverlust innerhalb von 4 h). 

Substratspezifitat 

15 

Das Enzym setzt neben Coniferylaldehyd (100 %) auch trans-Zimtaldehyd (96,7 %), Sinapylaldehyd (76,7 %), p- 
Anisaldehyd (23,1 %), Benzaldehyd (17,8), 3,5-Dimethoxy-Benzaldehyd (7,6 %) und 3-Hydroxybenzaldehyd (1,7 %) 
urn. Der K M -Wertder CALDH fur Coniferylaldehyd liegt im Bereich zwischen 0,007 und 0,012 mM, bei einer V max von 
ca. 9 bis 1 5 U/ml. Der K M -Wert der CALDH fur NAD liegt bei 0,334 mM, bei einer V max von 14,2 U/ml. NADP wird mit 
20 einer Rate von 4,3 % verglichen mit NAD umgesetzt. 

N-terminale Aminosauresequenz 

Die N-terminale Aminosauresequenz-Bestimmung des gereinigten Proteins ergab folgendes Ergebnis: 
25 1 SILGLNGAPVGAEQLGSAL(D)20 

(Sequenz im Ein-Buchstaben-Code; (): unsicher). 

Beispiel 8 

30 Lokalisierung und Sequenzierung des Coniferylaldehyd-Dehydrogenase Gens (cajdh) 

Die N-terminale Aminosauresequenz konnte eindeutig einer von der DNA-Sequenz des Fragmentes E94 des Plas- 
mides pE5-1 abgeleiteten Aminosauresequenz zugeordnet werden. Somit ist das CALDH-Strukturen caldh auf E94 
lokalisiert. Die von caldh abgeleitete Aminosauresequenz wies Homologien zu anderen Aldehyd-Dehydrogenasen auf. 

35 

Beispiel 9 

Komplementierung weiterer, im Eugenol-Katabolismus defekter Mutanten durch die Hybridcosmide pE207 und pE5-l 

40 Nach NMG-Mutagenese waren die Mutanten 6167 und 6202 erhalten worden, die nicht mehr in der Lage waren, 
Eugeno! und Ferulasaure als C- und Energiequelle zu nutzen (s.o.). Die Mutante 6202 war durch Erhalt des Plasmids 
pE207 nach konjugativem Transfer wieder in der Lage, diese Substrate zu nutzen. Diese Mutante wird durch das Enoyl- 
CoA Hydratase-homologe Gen komplementiert. 

Die Mutante 6167 war durch Erhalt des Plasmids pE5-1 nach konjugativem Transfer wieder in der Lage, diese Sub- 

45 strate zu nutzen. Die komplementierende Eigenschaft konnte durch einzelne Klonierung der Eco RI-Fraqmente von 
pE5-l in pHPl014 und konjugativer Ubertragung dieser Plasmide in die Mutante 6167 auf das Fragment E94 einge- 
grenzt werden. Von Fragment E94 wurde nach Klonierung in pBluescript SK" und Verdauung mit unterschiedlichen 
Restriktionsenzymen eine physikalische Karte angefertigt. Der die Mutante 6167 komplementierende Bereich wurde 
durch Klonierung von Subfragmenten von E94 in den Vektoren pVK101 und pMP92 mit anschlieGender konjugativer 

so Ubertragung in die Mutante 6167 auf ein 1 ,9 kbp EcoRt/Hindlll-Fragment (EK19) eingegrenzt. Nach Klonierung dieses 
Fragments in pBluescript SK' und Sequenzierung wurden 2 ORFs identifiziert, die Homologien zu Acetyl-CoA Ace- 
tyltransferasen bzw. zur "Medium-chain acyl-CoA Synthetase" aus Pseudomonas oleovorans aufwiesen. Durch voll- 
standige Sequenzierung des Fragments E94 wurden weitere ORFs identifiziert, die Homologien zu Regulator- 
Proteinen und einem Chenotaxis-Protein aufwiesen (s. Abb. 1). 
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Beispiel 10 

Nachweis der chromosomalen Codierung der Gene des Eugenol-Katabolismus in Pseudomonas sp. HR 1 99 

5 Da Pseudomonas sp. HR 199 ein Megaplasmid mit einer GroBe von ca. 350 kbp besitzt, wurde in einem Hybridi- 

sierungsexperiment uberprCift, ob die Gene des Eugenol-Katabolismus auf diesem Megaplasmid oder auf dem Chro- 
mosom lokalisiert waren. Dazu wurden Megaplasmidpraparationen des Wildtyps und der Mutanten im 0,8 Gew.-% 
Agarose-Gel aufgetrennt. Die chromosomale und megaplasmidare DNA wurde auf eine Nylonmembran geblottet und 
anschlieBend gegen eine biotinylierte HE38-DNA-Sonde hybridisiert. Dabei wurde nur mit der chromosomalen DNA, 

10 nicht jedoch mit der Megaplasmid-DNA ein Hybridisierungssignal erhalten. Somit liegen die Gene des Eugenol-Kata- 
bolismus in Pseudomonas sp. HR 1 99 chromosomal codiert vor. 

Beispiel 11 

75 Heterologe Expression von Genen des Eugenol-Katabolismus aus Pseudomonas sp. HR 1 99 in anderen Pseudomo- 
nas-Stammen und in Alcaligenes eutrophus . 

Das Plasmid pE207 und ein pVK101-Hybridplasmid mit Fragment H110 (pVKH110) wurden konjugativ nach A. 
eutrophus und in Pseudomonas -Stamme ubertragen, die nicht in der Lage waren, Eugenol, Vanillin oder Vanillinsaure 
20 zu verstoffwechseln. Die erhaltenen Transkonjuganten wurden zum einen auf ihr Vermogen uberpruft. auf MM-Agar- 
platten mit Eugenol, Vanillin oder Vanillinsaure wachsen zu konnen. Zum anderen wurden einige Transkonjuganten in 
MM-Flussigmedium mit Eugenol inkubiert. Mittels HPLC-Analyse der Kulturuberstande wurde eine Umsetzung von 
Eugenol durch einige der Transkonjuganten beobachtet, 

Auf diese Weise wurde eine funktionelle Expression des vdh-Gens in Transkonjuganten von R stutzeri . P asplenii , 
25 Pseudomonas sp. DSM13, Pseudomonas sp. DSMl5a und Pseudomonas sp. D1 nachgewiesen. 

Transkonjuganten des Stammes Pseudomonas sp. D1 , die das Plasmid pE207 erhalten hatten, waren in der Lage, 
mit Eugenol als C- und Energiequelle zu wachsen. Auch in entsprechenden Transkonjuganten von R testosteroni 
LMD3324, R fluorescens TypB, P stutzeri DSM50027, Pseudomonas sp. DSM1455 und P fragi DSM3456 wurde eine 
funktionelle Expression der Eugenol-Hydroxylase-Gene beobachtet, was zu einer Ausscheidung von Intermediaten 
30 des Eugenol-Katabolismus (Coniferylalkohol, Coniferylaldehyd, Ferulasaure, Vanillin, Vanillinsaure) in das Kulturme- 
dium ftihrte. Ein Wachstum dieser Transkonjuganten auf Eugenol wurde hingegen nicht beobachtet. 
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SEQUENZPROTOKOLL 



(1) ALLGEMEINE ANGABEN: 



(i) ANMELDER: 

(A) NAME: Haarmann & Reimer GmbH 

(B) STRASSE: Rumohrtalstrasse 1 

(C) ORT: Holzminden 

(E) LAND: Deutschland 

(F) POSTLEITZAHL: 37603 

(G) TELEFON: 0214-3067988 

(H) TELEFAX: 0214-303482 

(ii) BE ZE ICHNUNG DER ERFINDUNG : Syntheseenzyme fuer die Herstell 
Coniferylalkohol, Coniferylaldehyd, Ferulasaeure, Vanill 
und Vanillinsaeure und deren Verwendung 



Uii) ANZAHL DER SEQUENZEN: 42 



(iv) COMPUTER- LESBARE FASSUNG: 

(A) DATENTRAGER: Floppy disk 

(B) COMPUTER: IBM PC compatible 

(C) BETRIEBSSYSTEM: PC-DOS /MS-DOS 

(D) SOFTWARE: Patentln Release #1.0, Version #1.30 (EPA) 



(2) ANGABEN ZU SEQ ID NO: 1: 



(i) SEQUENZKENNZEICHEN: 
30 (A) LANGE: 32679 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 



(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 



(iv) ANTISENSE: NEIN 



(vi) URSPRUNLICHE HERKUNFT : 

(A) ORGANISMUS : Pseudomonas sp . 

(B) STAMM: HR199 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:3146. . 3997 

(D> SONSTIGE ANGABEN: /gene= "ORF1" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 1: 
GAATTCATCC TCATGGAGCA CTTCTACAAG CAGCAGGCAG GCCACCCTCC CCAGACCGAT 
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GACGTGCATA TTATCGCGAT CGGCGGAACG AGCTTTAAAC GCTACCTGGA GCTCGGAAAG 12 0 

CTCCTGAACA TCAGAGTTGC CGCAATTCGA GATAACGACG GTGACTATCA GCAGAACTGT 180 

GTAGCGAACT ACGAAGGCTA CCTGTACGAG TCGGCCAAGA TTTTCGCCGC CCCAGATCCT 24 0 

GACCGAAGCA CCTTCGAAAT AGGGCTGTAC CGTGACAACC AGAAAGCCTG TGACGATCTC 300 

TTTGTTGCGG GTCGCAAAAA ACTGACCGTG CAAGAGTACA TGCTCAAAAA TAAAGCGGAT 360 

GCCGCTTTCG AGCTGCTGAC CAAGAAGTCC GCTGAACTGA TCGCCCCGAA GTACATACAG 420 

GAAGCGATCG AATGGATAAG AGCGTAATTT TCTCCGTCGC AGGATCCGGG AAAACCAGCC 480 

T GAT CAT C GA GCGTCTCAGC CTTGATCAGC GGGCATTGGT CAT CACT T AC ACGGACAACA 54 0 

ATCACCGGCA CCTGCGCAAC AGGATCATTC AGAGATTCGG GGTGATCCCA TCCAACATCA 600 

CGCTCATGAC GTACTTCTCG TTCCTGCATG GGTTCTGCTA TCGGCCCTTG ATGCAATTGC 66 0 

AGCTAGGAAC ACGAGGCCTA AATTTCAGAC GTCCGCCCAA CAGGCAGTAC CCCCTGAACG 720 

ATCTCAATCG GTATCGCGAT GGAAGCGGCA GGCTCTATCA CTGCCGCCTC GCGAAACTGC 78 0 

TGGACGTTGC GCAGGCCTTA CCGGATGTGC GTGCCCGCCT GGAGCGCTTT TACGACTGCC 840 

TGTACGTCGA CGAGGTACAG GATTTCGCGG GTCACGACTT CAACCTCCTG CTGGAGGTTT 900 

CACGGGCGAA GATCGGCATG ACGTTCGTCG GTGATTTCCA CCAGCACACC TTCGATACCA 960 

GCCGAGACGG AGCGGTAAAC AAAACCCTTC ACGACGATGC CGTTCGCTAC GAGAAGCGCT 1020 

TTCGTGATGC CGGCATTTCG GTGGACAAGC AAACGTTGAA CCGCAGCTGG CGATGCGCCA 1080 

AAACGGTCTG TGACTTCATC AGCGCAAAGC TGAAAATTGG CGAT GGACGC TCACGAGGAG 1140 

CGGGGCAGCC GGAT CATTAG AGTT GATGAC CAAGAGCAGG CCAACTTGTT GCACGTT GAC 120 0 

CCAACCATCG TGAAGCTGTT TTTGAGCGAA CACTACAAGT ACGGCTGCCA CTCCGAAAAC 1260 

TGGGGGGCAA GCAAGGCATG GATCACTTTA ACGATGTCTG CGTTGTGATG GGCCCGGGTA 132 0 

TCTGGAAAGA CTATGTGGCT GAGAGGTTAC ACCAGGCCAA CCCGCAAACC CGAAACAAGC 13 8 0 

TGTACGTGGC CTGCACTAGG GCGCGGGGTG ATCTGTATTT CGTGCCTGAG AAGCTCTTGA 14 4 0 

GGGCCTTCAA ACAGGGAAAT TAGGCGATAA AGCT GAAAAA GGATTTTCAA GTAAAGACCA 150 0 

CTCCTTCCTT ACTCGATGTC CGCTTTTGGC CGATTTCTGC CAGTCACGAC CGGCAAAGAA 1560 

CGGCCAAAAG CGGACTGATG CGGTTACTAA GCCTGCCTCT TATTGAAGCT TGGTGGGCTT 162 0 

TAAGAATGTG GTGCGATCCA GCCTGATGAT GTTCCGCTTT ATGCACGCAG CCAAGCCTAT 168 0 

CGACCGCCGT CTGCACGTTG TAACCGACTA CGCCTGTGCC TTT GCCGCTG GTGGCCATGG 1740 
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AGCGTGCATC CGGATCGGTG AGTGAGACTT GCCCATCCGG TGCTTCACGT AGCTGCTGCT 1800 

CCATCTCCTT GAGCGCCTGC ATCTGCTGGC GGAGTTTCTC GATTTTATCC TGGAGGCGGC 18 60 

TGGCTTTGGC TTCGGCGACA TCGGATTGAG TTCTGTCGGC GGTGTCCATC GCTGCCAGAT 1920 

AGCGGTCGAT GATTTTATCA ATCTGGTCCA TCCGGGCGCG CACCCGCTAT GATCCGGAGT 1980 

CCTCCGATAT CGATGAGGCC TATCTGGGCT GGAAGAGCGG TTCGGTGTTC TCAGACCTTG 2 040 

GCGAGAACGC GGTCAAGCTC AGCTTCGGGC GCCAAGCCTT CAAGATCGGC AACGGCTTCC 2100 

TGATCGGCGA AGGCCACGTC GACCAAGGTA ACGATGCGGG CTACTGGCTG GCCCCTACCT 2160 

AGGCGTTCGA CAACACCGTC CTAGCCCAAC TGGACACCGG CAAGCTGCAT GTCGACCTGT 2220 

TCGACCTCCA GGCGGGCATG GATCTGGACG TCGCCGACAT CAAGGAGAAA GTCCGGGTGC 22 80 

GCGGGGGCAA CGTCGAGTGG CGCGACGAGA CCTACGGCAC GGTAGGGTTC ACCGGCTTCC 23 4 0 

ATACGCTGGA CGCTGACAAT CCGCTGCGCG AC GGCAT GAA TGTCTACGAC GT AC GC GC AT 2 4 00 

CGGGCAGCCC GATCCGAGCC CTGCCGCAGG TGGCCCTGGC GGCGGAGTAC GCCTGGCAGC 24 60 

GCGGCGGCGA GGCGGACAAG ACGAGTGAGG CCTGGTACCT ACAGGGCAGC TACACCTTTC 2520 

GGGATGCCCC CTGGACGCCA GTGCTGATGT ACCGTCACGC GGTCTTCTCC GACGACTACG 25 8 0 

ACTCCCTGCT GTACGGCTAA GGGGGCAACA ACATGGGCTG GAAAGGAGCA TTGCGTTGAA 264 0 

ACGATGCTGA AGGGCGTCAC TCTTTTACTG CTGTCCGCTC ACGTCGAAAC TGCATGATTT 27 0 0 

CGGGCAGCCT TTCTTCTATC CAGTCGGCCA GCACCTGAAC AT GAGCCGCT ACTTCCTGGC 2760 

CAAGCGGCGT CAGGCT GT AC TCGACATGTG GGGGAACGAC CGGGAGCGAA TGTCGAGCTA 282 0 

TGAAACCGTC TCCCTCCAGG CCTTGTAGGG TCTGCGCAAG CATTCTTTTC GCTGACACCG 28 8 0 

CCGATTCTTC CGACGCAGGT CGCTGAATCG AT GGACAC CG TCCACCAAGA TGATCAGCAC 2 94 0 

GAGCACGCCC AGCGGCTTGT CACGTGCTTG AGCACGTCCC GCGACGGCAT TCAGCACTCA 30 00 

GCAATTCCCG CGCCGTGCTT GCATGGAGAG ACTGGTAAGG GCGGCCAGCG TGAGTTTCAT 3 0 60 

GGCACTAACC TTTATGTATG TACTTACTTT TAGTTGCTAG TAGGGAT AT G GTGACGCCTT 3120 

CATCCTACGA AACAAGTGAA GACTG ATG ATC GCC ATC ACA GGT GCC TCC GGA 3172 
Met lie Ala He Thr Gly Ala Ser Gly 



CAA CTT GGT CGG TTG ACT ATA GAG GCG CTA CTG AAG CGC CTG CCA GCA 
Gin Leu Gly Arg Leu Thr He Glu Ala Leu Leu Lys Arg Leu Pro Ala 



TCC GAA ATT ATT GCC CTC GTC CGG GAT CCG ART AAG GCC GGA GAC CTT 
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Ser Glu He He Ala Leu Val Arg Asp Pro Asn Lys Ala Gly Asp Leu 



ACC GCA CGT GGC ATC GTG GTG CGC CAG GCC GAT TAC AAC CGG CCG GAA 
Thr Ala Arg Gly He Val Val Arg Gin Ala Asp Tyr Asn Arg Pro Glu 



ACA CTC CAC CGG GCC CTG ATT GGG GTC AAC CGG TTG CTG TTG ATT TCC 
Thr Leu His Arg Ala Leu He Gly Val Asn Arg Leu Leu Leu He Ser 



TCC AGT GAG GTG GGT CAA CGA ACT GCG CAA CAC CGG GCA GTG ATC GAC 
Ser Ser Glu Val Gly Gin Arg Thr Ala Gin His Arg Ala Val He Asp 



GCT GCG AAG CAA GAA GGT ATC GAG TTG CTG GCT TAT ACG AGT CTG CTT 

Ala Ala Lys Gin Glu Gly lie Glu Leu Leu Ala Tyr Thr Ser Leu Leu 

90 95 100 105 

CAT GCC GAT AAA TCG GCG CTG GGC CTA GCG ACT GAA CAC CGA GAC ACG 

His Ala Asp Lys Ser Ala Leu Gly Leu Ala Thr Glu His Arg Asp Thr 

110 115 120 

GAA CAG GCC CTG ACA GAG TCC GGT ATT CCT CAT GTC CTG TTG CGC AAC 

Glu Gin Ala Leu Thr Glu Ser Gly He Pro His Val Leu Leu Arg Asn 

125 130 135 

GGT TGG TAT CAC GAG AAC TAC ACG GCG GGC ATC CCA GTC GCG CTG GTT 

Gly Trp Tyr His Glu Asn Tyr Thr Ala Gly lie Pro Val Ala Leu Val 

140 145 150 

CAT GGC GTG TTG CTG GGC TGT GCC CAG GAT GGC TTG ATT GCT TCT GCT 

His Gly Val Leu Leu Gly Cys Ala Gin Asp Gly Leu He Ala Ser Ala 

155 160 165 

GCA CGT GCT GAC TAC GCC GAA GCA GCG GCT GTG GTG CTC ACC GGT GAG 

Ala Arg Ala Asp Tyr Ala Glu Ala Ala Ala Val Val Leu Thr Gly Glu 

170 175 180 185 

AAT CAG GCA GGT CGC GTC TAC GAG CTG GCC GGT GAA CCG GCA TAT ACG 

Asn Gin Ala Gly Arg Val Tyr Glu Leu Ala Gly Glu Pro Ala Tyr Thr 

190 195 200 

CTC ACC GAA CTG GCA GCT GAG GTG GCG CCG CAA GCA GGA AAG ACC GTC 

Leu Thr Glu Leu Ala Ala Glu Val Ala Pro Gin Ala Gly Lys Thr Val 

205 210 215 

GTG TAT TCG AAC CTA TCC GAG AGC GAT TAC CGA TCT GCG TTG ATC AGT 

Val Tyr Ser Asn Leu Ser Glu Ser Asp Tyr Arg Ser Ala Leu He Ser 

220 225 230 

GCG GGC CTT CCC GAT GGT TTT GCG GCA TTG CTC GCA GAC TCT GAT GCA 

Ala Gly Leu Pro Asp Gly Phe Ala Ala Leu Leu Ala Asp Ser Asp Ala 

235 240 245 
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GGC GCA GCC AAG GGG TAT TTG TTT GAT TCC AGT GGA GAC AGT CGC AAG 
Gly Ala Ala Lys Gly Tyr Leu Phe Asp Ser Ser Gly Asp Sec Arg Lys 
250 255 260 265 

CTG ATC GGT CGC CCA ACC ACT CCG ATG TCG GAA GCC ATC GCG GCA GCA 
Leu lie Gly Arg Pro Thr Thr Pro Met Ser Glu Ala lie Ala Ala Ala 
270 275 280 

ATT GGC CGC TAAAACTGCA TTTTCGCGAC TTGAGTGACA CCTGGGTTAG 
lie Gly Arg 



ATAACCCAGG TGTCTCGCAC CGCTTTGGGT TAGTGGTGGG CAATAGC GGT GTCTGGTCAC 4097 

CGCTTGCCCG GCGGCGCGCC CGCTATTGGA TGATTCTCAA CTTCCTGGTG CCGGCGTCTT 4157 

GTTGGGGCCC AAACAGGCGG GCATAACGCA ATGTGGCATT TGCACTGTCG CGCATGATGG 4217 

CTTCTGCTCG AGCACCTTGC CCGCTAATCA GCGCGTCTAC CACAGCATGA TGCTGCATGT 4 27 7 

TGGCAAAATT GAACCGGCGG TACTCTTGGG GAGGTTGCTA CCGTCGACGG CCAGTGAACT 4337 

GACAGAGGCA AAGGGCAGGT GTTCATTCCG AGCCAATGCT TCACCTATGG CAGCGTTACC 4 397 

GCTGGCATCC ACGATAGCTT GATGGAAGCG CTTGTTGATG TCGTGGTATT CGGCGAGGTC 4 4 57 

GTCTTCGCTG ACATAACCTT TCTCAAATAG GGCATCGCCC TGGGCCAAGC ACTGCAAGAG 4 517 

GATCTCTTGC GTTTCACTGG ATAGCCCTCG CTCGGCAGCC TGCCTTGCGG CCAGTCCTTC 4 57 7 

AAGTACCCCT CGAACCTCCA CCGCGCCTGC CAGGTCATTT GGGGTCATTT GCCGCACTGC 4637 

ATAGCCACGT GCGCCTTGGC GATCAGTAAC CCTTCCTGTT CTAGCGCTCG GAACGCAATG 4 697 

CGGATAGGTG TGCGCCGACA CTCCCAGGCG CTCGGCAGTG GGGATTTCGG CGATGCGCTC 47 57 

TCCTGCCGGG AGTTCGCCAT CCACAATCAT TTTGCGCAGT AGATTGAGTA CTCGCTGCCC 4817 

GGGCCCGCTC ATTTCAGCCT CCGATTGGAT CCAGTAATGG TTTGAGAGAA TTTTACTCGC 4 8 77 

AAGGGATTTC TGGGCAATAG CCCCGCTGAT TGCTGGTTTT TGTATGTGGC GTGCGACTAT 49 37 

CGCACAGAAT TGGATCCACC TTGGCGCAAA AAAACTGGAG CTACCTCATC GGTCGTGGTT 4 9 97 

ATATTGGATC CCATAAGGTC AAGTT CAT AG CTGATTTTGG CTTTAGATGT CCATTGTGGA 50 57 

TCCAAAAACA AGATCGCCAT TGAGGAACGC GCCATGTTTC CGAAAAACGC CTGGTATGTC 5117 

GCTTGCACTC CGGATGAAAT CGCAGATAAG CCGCTAGGCC GTCAGATCTG CAAC GAAAAG 5177 

ATTGTCTTCT ATCGGGGGCC GGAAGGACGT GTTGCCGCGG TAGAGGATTT CTGCCCTCAT 5 2 37 

CGCGGGGCAC CGTTGTCCCT GGGTTTCGTT CGCGACGGTA AGCTGATTTG CGGCTACCAC 52 97 

GGTTTGGAAA TGGGCTGCGA GGGCAAAACG CTCGCGATGC CCGGGCAGCG CGTTCAAGGC 5 357 



BNSDOCID: <EP_0845532A2_I_> 



16 



EP 0 845 532 A2 



TTCCCTTGCA TCAAAAGCTA CGCGGTAGAA GAGCGAT AC G GCTTTATCTG GGTATGGCCT 5417 

GGTGATCGCG AGCTGGCGGA TCCGGCGCTT ATTCACCACC TGGAGTGGGC CGATAATCCG 54 7 7 

GAGTGGGCCT ATGGTGGCGG TCTCTACCAC ATCGCTTGTG ATTACCGCCT GATGATCGAC 5537 

AACCTCATGG ATCTCACCCA TGAGACCTAT GTGCATGCCT CCAGCATCGG TCAAAAGGAA 5597 

ATTGACGAGG CACCGGTCAG TACTCGTGTC GAGGGCGACA CCGTGATTAC CAGCCGGTAC 56 57 

ATGGATAACG TCATGGCCCC TCCGTTCTGG CGTGCTGCGC TTCGTGGCAA CGGCTTGGCC 5717 

GACGATGTAC CGGTTGATCG CTGGCAGATC TGCCGATTCG CTCCTCCGAG TCACGTACTG 57 77 

AT CGAAGT AG GTGTGGCTCA TGCGGGCAAA GGCGGATATG ACGCGCCGGC GGAATACAAG 58 37 

GCCGGCAGCA TAGTGGTCGA CTTCATCACG CCGGAGAGTG ATACCTCGAT TTGGTACTTC 5897 

TGGGGCATGG CTCGCAACTT CCGTCCGCAG GGCACGGAGC TGACTGAAAC CATTCGTGTT 5957 

GGTCAGGGCA AGATTTTTGC CGAGGACCTG GACATGCTGG AGCAGCAGCA GCGCAATCTG 6017 

CTGGCCTACC CGGAGCGCCA GTTGCTCAAG CTGAATATCG ATGCCGGCGG GGTTCAGTCA 60 77 

CGGCGCGTCA TTGATCGGAT TCTCGCAGCT GAACAAGAGG CCGCAGACGC AGCGCTGATC 6137 

GCGAGAAGTG CAT CAT GATT GAGGTAATCA TTTCGGCGAT GCGCTTGGTT GCTCAGGACA 6197 

TCATTAGCCT TGAGTTTGTC CGGGCTGACG GTGGCTTGCT TCCGCCTGTC GAGGCCGGCG 62 57 

CCCACGTCGA TGTGCATCTT CCTGGCGGCC TGATTCGGCA GTACTCGCTC TGGAATCAAC 6317 

CAGGGGCGCA GAGCCATTAC TGCATCGGTG TTCTGAAGGA CCCGGCGTCT CGTGGTGGTT 6377 

CGAAGGCGGT GCACGAGAAT CTTCGCGTCG GGATGCGCGT GCAAATTAGC GAGCCGAGGA 6437 

ACCTATTCCC ATTGGAAGAG GGGGTGGAGC GGAGTCTGCT GTTCGCGGGC GGGATTGGCA 64 97 

TTACGCCGAT TCTGTGTATG GCTCAAGAAT TAGCAGCACG CGAGCAAGAT TTCGAGTTGC 6557 

ATTATTGCGC GCGTTCGACC GACCGAGCGG CGTTCGTTGA ATGGCTTAAG GTTTGCGACT 6617 

TTGCTGATCA CGTACGTTTC CACTTTGACA ATGGCCCGGA TCAGCAAAAA CTGAATGCCG 6677 

CAGCGCTGCT AGCGGCCGAG GC CGAAGGT A CCCACCTTTA TGTCTGTGGG CCCGGCGGGT 67 37 

T CAT GGGGC A TGTGCTTGAT ACCGCGAAGG AGCAGGGCTG GGCTGACAAT C G ACT GC AT C 67 97 

GAGAGTATTT CGCCGCGGCG CCGAATGTGA GTGCTGACGA TGGCAGTTTC GAGGTGCGGA 68 57 

TTCACAGCAC CGGACAAGTG CTTCAGGTCC CCGCGGATCA AACGGTCTCC CAGGTGCTCG 6917 

ATGCGGCCGG AATTATCGTT CCCGTTTCTT GTGAGCAGGG CATCTGCGGT ACTTGCATCA 697 7 

CTCGGGTGGT AGACGGAGAG C CT GAT CAT C GTGACTTCTT CCTCACGGAT GCGGAGAAGG 7 0 37 
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CAAAGAACGA CCAGTTCACC CCCTGTTGCT CGCGAGCCAA GAGCGCCTGT TTGGTCTTGG 7097 

ATCTCTAACT CATCCCCGTG TCCGGTCCCC TGCTTTGGTG CGGCGGACTG TGCGCGGGTA 7157 

5 

AGTAAACAGG CTCAACCGTT TTTAGCGGGA TAACCATTCT TGAGGATGAA GGAGGGTTAT 7217 

CCCGCTCTTT TCATGCACCA AGCCATTCAT AGTCACCAGC TGCTTCTACG TGCTGCTGCG 7277 

w TTACAAGTTT ATTCAGAAGG AAATCGGAAT GATCAAATCC CGCGCCGCTG TGGCGTTCGC 7 3 37 

ACCCAATCAG CCATTGCAGA TCGTCGAAGT GGACGTGGCT CCGCCCAAGG CCGGTGAAGT 7 397 

CCTGGTGCGG GTCGTGGCCA CCGGCGTTTG CCACACCGAT GCCTACACCC TGTCCGGCGC 7 457 

15 TGATTCCGAG GGCGTTTTCC CCTGCATCCT TGGTCACGAA GGCGGCGGCA TTGTCGAAGC 7517 

GGT GGGCGAG GGCGTCACCT CGCTGGCGGT CGGCGACCAC GTGATCCCGC TCTACACGGC 7 577 

CGAATGCCGT GAGTGCAAGT TCTTCAAGTC CGGCAAGACC AACCTGTGCC AGAAAGTGCG 7 637 

20 TGCTACTCAG GGCAAGGGTC TGATGCCGGA CGGCACCTCC CGCTTCAGCT ACAACGGTCA 7 697 

GCCGATCTAC C ACT AC AT GG GCTGCTCGAC CTTCTCCGAG TACACCGTGC TGCCGGAAAT 77 57 

CTCCCTGGCG AAGATTCCCA AGAAT GCGCC GCTGGAGAAA GTCTGCCTGC TGGGCTGCGG 7 817 

25 

CGTGACCACC GGCATTGGCG CGGTGCTGAA CACT GCCAAG GTGGAGGAGG GTGCTACCGT 787 7 

GGCCATCTTC GGCCTGGGCG GCATCGGCTT GGCGGCGATC ATCGGCGCGA AGATGGCCAA 7 937 

3Q GGCCTCGCGC ATCATCGCCA TCGACATCAA TCCGTCCAAG TTCGATGTGG CTCGCGAGCT 7 9 97 

GGGC GCCACT GACTTCGTCA ATCCGAACGA TCACGCGAAG CCGATCCAGG ATGTCATCGT 8057 

CGAGATGACT GATGGCGGTG TGGACTACAG CTTCGAGTGC ATCGGCAACG TTCGACTCAT 8117 

35 GCGCGCAGCA CTCGAGTGCT GCCACAAGGG CTGGGGCGAA TCCGTGATCA TCGGCGTGGC 8177 

GCCGGCGGGG GCCGAAATCA ACACCCGTCC GTTCCACCTG GTGACCGGTC GCGTCTGGCG 8237 

GGGTTCGGCG TTCGGTGGCG TAAAGGGCCG CACCGAACTG CCGAGCTACG TGGAGAAGGC 82 97 

40 ACAGCAGGGC GAGATCCCGC TGGACACCTT CATCACTCAC ACCATGGGCC TGGACGACAT 8 3 57 

CAACACGGCC TTCGACCTGA TGGACGAAGG GAAGAGCATC CGCTCTGTTG TTCAATTGAG 8 417 

TCGCTAGTGA AGTGGGGTGA GGAAATTGGA TTAGGAGGCG GATGGTTCCT GCCGCTTAAC 8 477 

45 

CACCTTGTCC CAGCTTCTGG CTGAGATTTC CAAGATTCGG TGAAATTTGC CATGCCGCAA 8 5 37 

ACTCTTGCTG GACGGTTGAG TCTGTTATCC GGCACCGACG AATTAACCCT GCTTCTTCGG 8 5 97 

5Q GGT GGTCGGG GCATTGAGCG TGAAGCCTTG CGGGTCGATG TTCAAGGTGA ACTGGCGCTG 8 657 

ACGCCTCACC CGGCGGCGCT TGGCTCTGCG TTGACCCATC CGACAATTAC TACGGATTAC 8 717 
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GCCGAGGCCC TGCTTGAGTT GATCACTCGG CCGGCAACCG ATTGTGCGCA AGCCTTGGCT 87 7 7 

GAGCTGGAGG AGCTT CACCG TTTCGTTCAT TCGAGACTTG AGGGGGAGTA TCTCTGGAAT 8837 

CTGTCCATGC CTGGCAGATT GCCGGTTGAT GAGCAAATCC CGATTGCTTG GTATGGACCA 8 8 97 

TCAAATCCAG GCATGTTGCG CCACGTTTAT CGCCGTGGCC TAGCTCTGCG TTATGGCAAG 8957 

CGAATGCAAT GCATCGCAGG GATTCACTAC AACTACTCAC TGCCGCCAGA GCTTTTCGCT 9017 

GTCCTGACCA AGGCAGAGGT CGGGTCTCCC AAGTTACTGG AGCGCCAGTC AGCAGCTTAC 9077 

ATGCGCCAAA TTCGCAACCT TCGGCAATAC GGTTGGTTGC TGGCCTACTT GTTCGGCGCT 9137 

TCCCCCGCCA TCTGCAAGAG CTTCTTGGGG GGCGAGAGAG ATGAGCTAGC TCGCATGGGG 9197 

GGCGATACGC TTTACATGCC CTATGCAACC AGCTT GCGCA TGAGTGACAT CGGGTACCGC 92 57 

AACCGTGCCA TGGATGATCT ATCTCCCAGC CTGAATGATC TGGGTGCCTA TATTCGCGAT 9 317 

ATTTGCCGTG CTCTTCACAC TCCCGATGCC CAGTACCAGG CGCTGGGTGT GTTTGCACAG 9377 

GGCGAGTGGC GGCAGTTAAA CGCCAATCTA TTGCAGTTGG ATAGTGAGTA CTACGCACTG 94 37 

GCGCGACCGA AGT CAGCGCC CGAGCGGGGG GAGCGAAACC TGGATGCTCT CGCTAGGCGT 9497 

GGAGTCCAGT ATGTGGAGCT GCGCGCACTG GAT CT C GAT C CATTCTCCCC GTTAGGCATT 95 57 

GGCCTGACCT GCGCCAAGTT CCTCGATGGC TTTTTGCTTT TCTGCTTGTT GTCTGAGGCG 9617 

CCGGTTGATG ATCGAAATGC CCAGCGTTCA AGACCGGGAA AATCTGAGCC TGGCCGGCAA 9677 

GTACGGGCGT CACCTGGCTT AAAGCTGCAT CGGAATGGTC AGTCCATTCT CCTCAAGGAT 97 37 

TGGGCGCAGG AAGTGTTGAC GGAGGTTCAG GCCTGTGTGG AATTGCTCGA CAGTGCAAAT 97 97 

GGGGGCTCAT CTCAC GCATT GGCTTGGTCA GCACAGGAGG AAAAGGTGCT TAATCCGGAT 9857 

TGTGCGCCAT CAGCTCAGGT GCT CGCAGAG ATACACAGAC ACGGTGGGAG CTTCACGGCA 9 917 

TTTGGTCGCC AATTAGCTAT CGACCATGCA AAACACTTCA GTGCCTCCTC GCTTGAGGCT 99 7 7 

GGCGTAGCCA AAGCGCTTGA CCTCCAGGCG ACGTCGTCTC TGCGCGAGCA GCATCAATTG 10037 

GAGGCCAACG ACCGTGCGCC ATTTTCTGAC TACCTTCAGC AATTCTCCCT GGCTTTCGGT 100 97 

CAATCCGTCG GCGCCTCTCG TGCGCCCAAC CCTACCGCGC ACCTCATCGA TCTGACCCCT 10157 

CCTGTCTAAG GTTGTCGTGG GAGCAGATCC GTGGGCCGAG CTTCCTCCAG GGCCTGGCCG 10217 

CAGCGATCCA GTTGCTAGGT CCCTATGCTC TTGCATAGGG TAAAAATTAG TTATTGTGTT 10277 

TAACGAAACG TCTGGCATAC TGGCTTTAGG CACGAGCTTC CACGCCGAAG TTGAGAGCGT 10337 

CATGAACGAT TTTTCGTGTG GAGAGACGAT GCCCGATGCG GTCGACGAGG TTCAGGTCCT 10397 
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AATGGCAGTG CCGGC GGCTA AACGGAACGT 
GCAGCTTGGC TGCTCCCTGG GCCTGTCAGG 

5 

ACAAGAAGGG CATTAAGATG ATGAATGTTA 
TCGCCTTCAT CTCTCAGGGA GCTTGGGCAG 

w ACATTTATCG AAAGACCTGC ACCTACTGCC 

TTGCCCGAAG CCTCGGGCCG ACTCTGCGAG 
ACATGGTGCG TCATGGACGC GGGGCAATGC 

<5 CGGAGCTGAA AGTTCTGGGC GATTGGATTC 

TCGCGCCATG ACTACCCGTC GCAACTTTCT 
GAT GAT GT C G CCGAAATTGG TCTTCCGTAC 

20 

GTCGACCGGG CTGGCCGGTG AGCAAGAGTT 
TACGGGTCAG GTCGACATCG CGTCGGTACC 
TCGACTTGCC CAGGCAATGG ATGCGTTGAA 

25 

CAGGAACGAA TT GAT ACT GA TGCAATTCTT 
AGGT GAGCAT GCGGTGGACA GCAAGGGGGT 

30 CAGTGCGGGA ATT GGAGGGG CGCTAGCCGA 

TATTTCCGTC CGAGCGCTTG GCTCGGTAAC 
GGCCACCCAC TGGACGACCG CTCTGGGGAC 

35 GGAGCCGCAG CGCGAAGTGG CCAGCTATGG 

TCGTGTTGCC TCAACCTTCA TTGCAGATCT 
GTAGTTCTTC CCGAGGGTGT CACCCCGGAG 

40 

C AGGT ATT GG GT G AGG AC AG TGTTCTTGTC 
CTCCTCATTC CTACACAGGA TGATGCCCAG 
TCGGTGGAGC AGGTCCAGAA AGTCATGGGG 

45 

CCAATCTCTA CCGGTCGGAA CTGGGGGTAT 
ATGATTCTTG ACCTTCGCAA GATGAACAAG 
so GCCCTGCTCG AGCCGGGCGT TACCTACCAG 

CTGCCCTTGA TGCTGGATGT GCCGACTATT 



GCCGTATTTT GAGGCTTGGA GCGTGGTGAA 10457 

ATCACGCTGT GTCGGCAGTG ACACTTCAAA 10517 

ATTATAAGGC TGTCGGGGCG AGCCTACTCC 10577 

AGAGCCCCGC AGCCTCTGGC AATACCCCTG 10637 

ATGAGCCTAC TGTCAACAAT GGCCGGGTCA 1069 7 

GGCGCCAGAT CCCTCCACAG TACACGGAGT 10757 

CTGCATTCTC TGAAGCAGAA GTGCCTCCGG 10817 

AGCAAAGCAG TGCTCCCAAA GACGCTGGAG 10877 

AATAGGCGCG TCGCAGGTGG GGGCATT GGT 10937 

GCCGCTCAAG CAGAAGCCCG TGCGCATCCT 10 997 

TCACTCGATG CTTCGCGCGC GATTGACCCA 11057 

GCTGGACGCA GCTATTTGGG CTTCTCCCGC 11117 

TGGTACGCGT CTGATCGCTT TTGTTGAGCC 11177 

GATGGATCGC GGGGCTGCGG TGCTTATTCA 112 37 

CTCTCGGCAC GACTTTCTGA GTACCCCATC 112 97 

CAGCCTGGCA AAAGGGGGCT CGCCGTTCTC 11357 

TGCTCAGCCA AGAAGTAATC AGAGTGAGGT 11417 

CTATTATGCC GATATCGCAG TGGGGCGCTG 11477 

AAGTGGACTA ATCATGGCGG AACGGCTTGA 11537 

CTGAGTCAGG GTATTGATAT GGAAAGC AC C 11597 

CAGTTCACCA AAGC CAT CAG CGAGTTCCGT 11657 

ACTGCTGAAC GAGTTGTTCC CTATACGAAA 117 17 

TACACCCCGG CCGGTGCCTT GACTCCTTCT 11777 

ATCTGCAATA AGTACAAGAT C C C GGT AT GG 118 37 

GGGTCCGCTT CGCCTGCAAC TCCTGGGCAG 118 97 

ATCATTGAGA TCGATGTTGA GGGGTGTACT 11957 

CAGCTTCACG ATTACATCAA GGAGCACAAT 12017 

GGGCCTATGG TTGGCCCGGT GGGTAACACG 12077 
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CTGGATCGAG 
GAAGTCGTCA 
AAGACTTGGC 
TCCAACTTTG 
AAGTCGTTTA 
CGCCCGCTGC 
GAAACGGCAA 
GCGGACGCCC 
CTTTACGGCA 
CCGACGGGGG 
CATAAGCAGC 
GGAGCAGGTG 
GAGCAGCAGG 
GGCTTTGCGA 
AATGCCGACG 
GCCGAAGGCT 
TTCGGCGCTG 
ATCATCGCTC 
CTGCTAGCCG 
CTCGGCTGTT 
CACCGGAAGT 
AGTTCGATTG 
GGTCGCTAAG 
CGTATTACTC 
GGTCATCGAC 
TCCAAGTACT 
CAGGCAGTCT 
TCTGTTGCTG 



GCGTTGGTTA 
TGGCCGATGG 
AGGCATTCAA 
GTGTTGTGAC 
TGATCCGTTA 
GTATTACTCA 
TCTGCCGGAC 
GCAAAGCATT 
CAGAAGAGCA 
GTGAGATCCT 
TCATGAACGG 
GCGGTGCTTG 
TCAAGCTTGC 
TTGGTTGGCG 
AGAAAAAGCG 
TTGCAAGTTA 
AGAATAAGAG 
CCGGCAAGTC 
CCTCATTTGA 
GATTCTTCGA 
CTTGGTCGGG 
ACGGCTCGCG 
GCGGATTACG 
CTGATTTCTG 
GCGGCAAAAC 
CGCAGCAGGT 
GGGGT GAAGT 
CTGAGGGCTC 



TACGCCGTAC 
CGAAATCCTC 
ATGGGGCTAT 
AAAGCT CGGG 
TCCCAATGAA 
GCTGATTCCT 
GCGTGCTGAG 
CAAAGAGCTA 
GATAGCCGTC 
CACCGAAGAG 
CGAGATGACA 
CTGGTTTGCA 
TCAGAAGGTG 
CGATCTTCAC 
CGCTTACGCT 
CAGGACCAAT 
GGTCAATCAG 
GGGC AT T CAT 
AGAAAGAGTC 
AAGAAGCGTA 
CTATCGTTGA 
ATCCTAAAAG 
CCGATATTGG 
GTACTGCACC 
GAAACGGCGT 
CTATTTGGGC 
TTACGATTGT 
AAGACAGCGG 



GGC GAGC ACT 
CGTACTGGTA 
GGT C CAT AT C 
ATTTGGTTGA 
GCTGATGTGG 
AACGTCGTTT 
GTTACTTCGG 
GGCGTTGGCT 
AATGAAAAGA 
GAGGCTGGAG 
TTGGAGGAAA 
CCGGTTGCTC 
CTTGCAAAGC 
CATGTGATCG 
TGCTTTGATG 
ATTGCCTTTA 
AAGATCAAGG 
CTTCCCAAAT 
GTATCGGCGA 
TGGGGGGGGA 
GCGACTAGGG 
GCTTCGTGCC 
GAGTCTTGAC 
CAATGAAATA 
GTCGCGTATT 
CTCCATTCAT 
CCGAAATAAT 
AATATTTGCC 



TCATGATGCA 
TGGGCTCGGT 
TGGACGGTAT 
TGCCCAAGCC 
TTAAGGCAAT 
TGTTCATGCA 
ACCCAGGTCC 
ACTGGAACGT 
TCGTCCGCGG 
ATAACATTCT 
TGAATATCTA 
AGGTCAAGGG 
ATGGGTTCGA 
ATGTGCTGTA 
AATTGATCGA 
TGGACAAAGT 
CTGCCCTTGA 
AATGCGTGTT 
TGCATGATGC 
ATGATTGCAA 
GACTGCGGTC 
GCTGCCGAGG 
CAGGCATTAC 
AGGATCCAAC 
GT GT AT AC C A 
CGTGAAACTG 
CAGTATGCGT 
ATTCCCGGGG 



GT GT GGT AT G 
GCCCAAAGCC 
CTTTACCCAG 
GCCAGTGATC 
TGATGCTTTT 
CGGCATGTAC 
TATTTCTGAA 
TTACTTCGCG 
CATCCTCGAA 
TTT C CAT CAC 
CCAGTGGCGC 
GCAT GAGGCA 
TTACACGGCG 
CGACCGTAGC 
CGTCTTTGCG 
CGCCTCTAAG 
TCCAAACGGC 
CGT GAGGCGG 
GTCGTTCGCT 
TCACTGCGGG 
TTATCGGTCA 
AAGGGTTTCA 
AGGGGGTAGA 
AGCATAAGTC 
GCTTCATAAA 
AGACTTACCT 
CTAACCTGGA 
CGAAGGGGCG 



12137 
12197 
12257 
12317 
12377 
12437 
12497 
12557 
12617 
12677 
12737 
12797 
12857 
12917 
12977 
13037 
13097 
13157 
13217 
13277 
13337 
13397 
13457 
13517 
13577 
13637 
13697 
13757 
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GGTGGCGTAC 
CGGACACGAT 
CGCGGAGATT 
CGAGTTTGCT 
AAGCATTTAT 
GTTGACGGGA 
AGGGAGGTGA 
TCAGGCT CCA 
TCCATGCAGC 
AAATGAAACC 
CTGGCGTATC 
GGGCCGGAAA 
TGCTCGCGGA 
CGTACGAGGA 
AAGTGGGGCG 
TGTTCGCGTT 
AACAAAAGCT 
CGCCAGGGTG 
TCGAGGTAGG 
TTGTCGCCAC 
CCAGGGCTAT 
ACAAAGCCAT 
AGGTTGGAGA 
CGATCTAACT 
GGTTTGGCTC 
CCCGGGGCGT 
TTCGTGCGAG 
TTAAGGTCTG 



GTCTCTCATC 
AACAGGATCT 
CTTGGTGGGG 
GCCAGCTTTC 
GCCGCTTCAG 
CGACGTGCCG 
CCGACGTATG 
GCCAACTCGG 
CTCGCTCAAC 
CGATGTGATC 
TTCGGAGGTG 
GATTACCGAG 
ATACGTTGCT 
GGCTGCAACA 
TGTCAAGGCC 
GCAGTTCGCC 
GGAGAGGGTG 
GGACCGTACT 
GGGGGCGGGG 
GATTGGGCTA 
TCAGCTCTCG 
TGCATCAGCC 
TGCTTATGAG 
GCCGCTAAAC 
TTGGATGGTC 
AATCAATGGC 
GACAGCGGCC 
GTACCCAGCA 



GCGACGTTGC 
ACCAGCTCAC 
TGCTCGGGCG 
GCGAGGCTGG 
GTGCTGGGGA 
AATCGATGCG 
AAGGCTTATG 
CCCCGCCCGC 
TTTCGCGATT 
CCGCTGTCCG 
CAGGGT CAGC 
CCGGCTATTG 
CTGCCCTATG 
TTGCCTTGCG 
GGTGATACGG 
AAGCTCTTGG 
AAAGCGATGG 
GTCCTGGATC 
ACCTTGGAGC 
GTGGCTGGCG 
GGCGTCTATG 
GAAATCAAGC 
TACATGCGTA 
CCGTTGTGCG 
TTCGCATGCA 
CTTGCGTGCA 
AC GTACCGGC 
GCCATGGAGA 



CGCTGCCATC 
AGGCT C T GAG 
TCCAGTGCGC 
ATTCCCTGAG 
GTACCAATCC 
AACTTACATA 
AGCTTCACAA 
AGTTGAATCA 
TGATGATCTT 
AT GGTGCTGG 
GCGTAGCCAG 
AGGTGTCGTT 
AGGCAACGAT 
CGGCGCTAAC 
TCTTGTTGCT 
GGGCGACGGT 
GGGCTGATCA 
TCACCGCGGG 
GCTCACTTCG 
TTGGCCCGAT 
TCGGTTCCCG 
CAGTGATCGA 
GCGGCAATCA 
GCAATTTGCG 
CGCTTTACGA 
GGCTCTCACC 
GCCCTGAAGG 
GCGGCCCTTA 



TGTAGTGTCC 
GCTCTCAATG 
GCGATGGATG 
TTTATGGTTG 
GTCAGTCCTG 
CAGCGTCTAG 
GATTTCGGAA 
TGGCGAGGTC 
GGCCGGTCGC 
CGAGATTGTG 
CACCTTTTTC 
GGGCTTCGGT 
ACCGATACCG 
CGCTTGGAAT 
TGGCACTGGC 
CATTCACACC 
TCTGATCAAC 
GCGAGGGGTT 
TGCGGTCAAG 
TGACCCATTG 
GGAAATGTTT 
TTGCTGCTTC 
CCTTGGCAAA 
GGAGCTAGTA 
AGGGGGCCAG 
GTCGTGATCG 
GCTGGAAGGT 
GCCGGAATGG 



TGACGACCGC 
GGCTCGAGAT 
CCTCGCCTGA 
AAGGC C TACT 
AT GTTGGGTT 
TTTGGCCTTG 
CAGGTAGAGG 
CTCATCAGGG 
TATCCGGGTC 
GAGGTCGGGC 
CCTAACTGGC 
AT GGACGGGA 
GAGCACCTGT 
GCGTTGACCG 
GGTGTCTCGA 
TCGAGCAGTG 
TACCGCAATT 
GACCTGGTAG 
GTAGGCGGTA 
CCGCTTATCT 
CTCTCAATGA 
CCCATCGACG 
GTAGTTATCA 
CCGGGCTTTC 
GGACAGACGC 
GGATTGGAAA 
TGGAGTTTCG 
CAGCTTGATG 



13817 
13877 
13937 
13997 
14057 
14117 
14177 
14237 
14297 
14357 
14417 
14477 
14537 
14597 
14657 
14717 
14777 
14837 
14897 
14957 
15017 
15077 
15137 
15197 
15257 
15317 
15377 
15437 
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GTTGCCACGG GACCAGACTG GATGTCTTGA 
TCATCGAGGC GACCAACCAC GGTCAGCAAG 

5 

CTAGGGACGA AGGCCGGCTC CTGGGCCGCC 
TCACCTCGGT GGTTGTCCCA GATGCCGAGT 

J0 TGATGCGCAA GTGGTTTGCG TGGATCGTCC 

AGGGCGAACG AAGAATCCAT GATTGGCATT 
TTGATCTCGT CGCTGCTGCT ATCGAGGTCA 

15 TTCTCAGGGG CGAAGGGTTG GTTTTGTGAG 

TCCATAAGGT CGATATAAAT CTTGGTTCCG 
CAGAGCGCCG GTGCCTTGAG CCAGCGAATC 

20 

ATGTAGCTGC CCAGTTCCGG CTCCCACATA 
AGGCTGTTGG TGGCCGGCAT AATTGGGAAA 
TGCATGAATG CGCCATAGGG CTGCTCAAAC 

25 

TCGACAATGT AATAGGCCAT GTCTGGAGTT 
AACAAGTCAC CCGTTTCCGG GTCATATTTT 

30 TGGCCGTCGT AGTCGAAGTG TCCGCGAGTT 

AGGCCGTCTT CCTTCACCGC CAGCACCTTG 
ACGGTGCGGT CTAGTCCTTT T AC ACT GGT G 

35 AATAGCGATT TTCGCGCTAG TCGTTCGGCC 

ATGAAGTCGA CAT GAC CAT C TTCGAAGTGG 
AAGGTGTGGA ATTTTTGTGG GGTAACTTGA 

40 

TTTATTGATT TTGGGATTTC GCCGTCAACC 
GTGGGGAGAA GTGTTCCTAC TAATTGCGGG 
TCTCCTTTGT TGTTCTGAAT GGCCTAAATG 

45 

GGACTGACCG GATTTCATGT GTGCCGGTGA 
GGTATTGAAA ATGGGCCGAG GCTGGCCTAT 
5Q GGTGGCGGCG TATGTCCATT CACTCTGAGG 

GGGCGCATAC CCTGAATGGA TCAATGCGTA 



GTGTCGAGAA TTACCAGATC GCTGCGATTT 15497 

TACCCGTCAC CTTCGGCGGC GGTCGGACTT 15557 

GAGGCTTCGC CGGAGTACCA GAGGTCGTAG 15617 

GAGTTGTACG CGAATATCTT CTCGGCCTGC 15677 

ACCCCCATAA AGCCATAGCG GTTGCATTGC 15737 

TCCGCAAAGA AATCGTGTAG CCGGGTTCGC 157 97 

ATTTCCCAAC GAGTCAGGCG TGGTACGGCT 15857 

TTGGGGAAGG GGAACGGCAG GATTTCACTT 15917 

ACTTCCCAAG CATTCACAAC AT GAAATAC C 1597 7 

AGACTGCCCT GGCGCGGCGC GAGTACGCCA 16037 

TAAATTGGCT GTTTCGCCTT GAGGCGGGAC 16097 

ATGGACCAAT TTCGGGTAAT GGCAAAGTCG 16157 

CAAGTTTCAT GTGTCACCTT GCCGTGCTTG 16217 

GCTTCGCCCT TAGCTGCCGA ACCGAAGAAC 16277 

GGATGGGCGG TGTGGGTTTG GCTGGTAACT 16337 

TCAAGTGTAC GAGGATCCAG TTCGTACGGT 16397 

CCGTGATGGC TAATGATGCT TGTATTGGCA 16457 

TCGTCGGTAT AGGGGTTTCT GTACATGCCA 16517 

GTGAATCGAG CGGTTTTAAC CCAGCGACTG 16577 

AAGGCAGAGG CCATTCCATC TCCATCTATG 16637 

GGCTCTGGCG TATTACGGTA GAACGTTCCA 16697 

TCTAGATCGA ACAAGTCTGC CTCTATACGG 167 57 

TCGTTGCGGT TGAATCTCGC CAT GGC AC GG 16817 

CGCGGCTTGC CGGGTTGGAG TTTATGTTTA 16877 

AGTGAAGATG TCTGTGAGTG CAATGGTGGT 16937 

TGTTTAGAAT TTCAAGAATG ACAACTATTC 16997 

GGATCACTCT CGCGGATTCG CCGCTGCATT 17 057 

CTCATTTCGA AGTCCAGCGT CTTGAGCGGG 17117 



55 
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GTAGAGGTGC CTCCCTTGCC CGATCTAGAT TTGGCGCGGG TGAGCTGTAC AGTGCCATTG 1"7177 

CACCAAGCCA GGTACTTCGC CACTTCAACG ACCAGCGAAA TGCTGATGAG GCTGAGCACA 172 37 

GCTATTT GAT TCAGATACGA AGTGGCGCTT TGGGCGTTGC ATCCGGCGGA AGAAAGGTGA 172 97 

TCTTGGCAAA TGGTGATTGC TCCATAGTTG ATAGTCGCCA AGACTTCACA CTTTCCTCGA 17 357 

ACTCTTCGAC CCAAGGTGTC GTAATACGCT TTCCGGTGAG TTGGCTGGGA GCGTGGGTGT 17 417 

CCAATCCGGA GGATCTTATC GCCCGACGAG TTGATGCTGA GGTAGGGTGG GGTAGGGCGC 17477 

TAAGCGCATC GGTTTCTAAT CTAGATCCAT TGCGCATCGA CGATTTAGGT AGCAATGTAA 17 537 

ATGGCATTGC AGAGCATGTT GCTATGTTAA TTTCACTAGC AAGTTCTGCG GTTAGTTCTG 17597 

AAGATGGGGG TGTGGCTCTT CGGAAAATGA GGGAAGTGAA GAGAGTACTC GAGCAGAGTT 17 657 

TCGCAGACGC TAATCTCGGG CCGGAAAGTG TTTCAAGTCA ATTAGGAATT TCGAAACGCT 17717 

ATTTGCATTA TGTCTTTGCT GCGTGCGGTA CGACCTTTGG TCGCGAGCTG TTGGAAATAC 17777 

GCCTGGGCAA AGCTTATCGA ATGCTCTGTG CGGCGAGTGA CTCGGGTGCT GTGCTGAAGG 178 37 

TGGCCATGTC CTCAGGTTTT TCGGATTCAA GCCATTT CAG CAAGAAATTT AAGGAAAGAT 17897 

ACGGTGTTTC GCCTGTCTCC TTGGTGAGGC AGGCTTGATT TCCCATAGCG TTATTGCGGT 17957 

CGTCGTTGCA AATGCGGACC TGCGTGATCA TCAAGGCTAA GACTGCCACA TTAGGTGTCG 18017 

ACTCGAGCGT CCCTCTATCC GCCTGACCGC GCTCCGTCCC TAGTACCTAG GAAATT GAGT 18077 

GGGCCTACTT GCCAGGGCCA GTTGGATTCG GTGCTGGTGA GCGCTGCGGG TGACAGAATC 18137 

CTGATCGTGG CGATCACGAT GGCGATAAAG TTGCCCGGTG TCGTAGATCG CAGGGTGACC 18197 

AAGACGGGGA CTCATGGCGC GGATCCCGCC AGTGATGCCT TCGCATGACG CCACCTCTCT 18257 

CCTCCGCTCA GCCTTCATGC CTGACTAATT AAGTCGTATA TCAATCTGGC TCTGTGCCGC 18317 

ATTCAGTTCC TCCAGCTGCA TTGTCTCTCG GCGGGAGGGC ATTCCCCTGC AT T GGC C AAA 18377 

TGGGTCCCCT TGTTCACGAC CGGACAAGCG CACCGTGCTG CCCGTTCGTC GTGTGCCCTG 184 37 

TCAAAAAGCC TGGCGACGAA AGGGCGGCAG GCCGCATGGC CACGGCTGGG CGGTAACTGA 18497 

TGCTTGCGTT AATCGTTAAC CGTTTGAAAT TCCTTGCCAA ATTTCGGCGA GAGAAT CAT G 185 57 

CGGGTACGCC TTTCCGTGCG CTTTGATCTG CGCTTCCGTG CCTTGAATCA GAAAAATAGT 18617 

TAATTGACAG AACTATAGGT TCGCAGTAGC TTTTGCTCAC CCACCAAATC CACAGCACTG 18677 

GGGTGCACGA TGAATAGCTA CGATGGCCGT TGGTCTACCG TTGATGTGAA GGTTGAAGAA 187 37 

GGTATCGCTT GGGTCACGCT GAACCGCCCG GAGAAGCGCA ACGCAATGAG CCCAACTCTC 187 97 
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AATCGAGAGA 
GTTCTGACTG 
GAGACCGATG 
CAGTGGAAGC 
TTCGGCGGCG 
ACCTTTGGCC 
ATGGCCGACA 
GGCGGTCAGC 
CGCAGTGTCA 
GCCGCCAAAA 
CTGTACGCCA 
ATGAAGCAGT 
TAAATGCGCC 
GCCCAATGTT 
GCACCTTCGA 
GTTTGGAAGA 
CGCTTGCTCC 
GTTCTTCCGA 
TTAACGTTTA 
AGGGCGATGT 
GTGGCGTGGT 
TTGCGATGCC 
TTACCCATCG 
AT GT CAT C AG 
CTGCGGTACG 
TGTCTGCGCG 
TCTTGGACGA 
ATCAGGGTCA 



TGGTCGAGGT 
GTGCAGGCGA 
CTGGCCCCGA 
TCCTGCGGAT 
GCTTCAGCCC 
TGT CCGAGAT 
CCGTGGGTCA 
AGGCCGCCAA 
CTGTAGAGCT 
TAGGCTTCAA 
AGCTCGACCA 
TCCTTGACGA 
GGGGCCCTCG 
TCACGTGCCC 
GCGTCGTAGC 
TGCGGACGCC 
GAGCGAACGC 
GTTCACCGCC 
CCTGGCGGCG 
CATTCCGTCC 
GCTCGGTATT 
GTTGGCATGC 
CCTGATTGGT 
CAATGCCCCG 
TCGAGTGAAC 
TCATCTGAAG 
TGCCGACCTC 
AATCTGCATG 



TCTGGAGGTG 
AT CCTGGACC 
AATTCTGCAA 
GTACACCAAG 
GCTGGTGGCC 
CAACTGGGGC 
CCGCGAGTCC 
GATGGGGCTT 
GGCTCAGAAC 
GCGTTGCCGC 
ATCCCGTTTG 
G AAAAGC AT C 
CTGCGCCCCC 
CTGCTTATTG 
CCGCTGACCG 
GCAGTGGCCG 
CGTGCCCGAC 
GCAGCGAGTG 
GGCATGTTGC 
AATGTGCCCG 
GCGCCTTGGA 
GGCAATACCG 
CAGGTGTTGC 
CAAGACGCTC 
TTCACCGGTT 
CCTGCTGTGC 
GATGCGGCGG 
TCCACTGAGC 



CTGGAGCAGG 
GCGGGCATGG 
GAGAAGATTC 
CCGACCATCG 
TGTGATCTGG 
ATCCCGCCGG 
CTTTACTACA 
GTGAACCAGA 
CTGCTGGACA 
GAGCTGACTT 
CTCGATCCGG 
AAGCCGGGCT 
GGCCTTCCAA 
GTGGTAAGCC 
GAGAAGT GGT 
CTGCACAGGC 
TGCTGCGAGC 
AAACTGGCGC 
GGGAAGCCGC 
GTAGCTTTGC 
ATGCTCCGGT 
TGGTGTTGAA 
ATGATGCTGG 
CTGCGGTGGT 
CGACCCACGT 
TGGAATTAGG 
TCGAAGCGGC 
GTCTGATTGT 



ACGCAGATGC 
ACCTGAAGGA 
GTCGCGAAGC 
CGATGGTCAA 
CCATCTGTGC 
GCAACCTGGT 
TCATGACTGG 
GTGTTCCGCT 
AGAACCCCGT 
GGGAGCAGAA 
AAGGCGGTCG 
TGCAGACCTA 
TAATGACAAT 
TTGTTCAGCA 
ATCGCGCGTC 
TGCGTTTCCT 
GGCGGATCTT 
AGCGGGAAAC 
GGCCATGACC 
CATGGCGGTT 
AATCCTTGGC 
AAGCT CT GAG 
TCTGGGGGAT 
GGAGCGACTG 
TGGACGGATC 
TGGTAAGGCT 
GGCCTTTGGT 
GACAGCAGTC 



TCGCGTGCTT 
GTATTTCCGC 
GTCGACCTGG 
TGGCTGGTGC 
CGACGAGGCC 
GAGTAAGGCT 
CAAGACATTT 
GGCCGAGCTG 
AGTGCTGCGT 
CGAGGACTAC 
CGAGCAGGGC 
CAAGCGCTGA 
AATGAGGAGT 
TCTGATGAGC 
GCTGCTGCCA 
GAATGGGCGG 
CTAGAGGACC 
TGGTATGGGT 
ACACAGATTC 
CGACAGCCAT 
GTACGGGCTG 
CTGAGTCCCT 
GGCGTGGTGA 
ATTGCAAATC 
ATTGGTGAGC 
CCGTTCTTGG 
GCCTACTTCA 
GCAGACGCCT 



18857 
18917 
18977 
19037 
19097 
19157 
19217 
19277 
19337 
19397 
19457 
19517 
19577 
19637 
19697 
19757 
19817 
19877 
19937 
19997 
20057 
20117 
20177 
20237 
20297 
20357 
20417 
20477 
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TTGTTGAAAA GCTGGCGAGG AAGGTCGCCA 
AATCGGTCTT GGGTTCGTTG ATTGATGCCA 

5 

ATGATGCGCT CGCAAAAGGC GCGCGGCAGG 
TGCAGCCGAT GCTGCTTGAT CAGGTCACTG 

/0 TTGGCCCTGT TGCCGTTGTC TTGCGCGGCG 

ACGATTCGGA GTTTGGTCTT TCGGCCGCCA 
AATTGGCCCA GCGCGTCGAT TCGGGCATTT 

,S AGGCT CAGAT GCCATTCGGT GGGGTGAAGT 

CATCGATTGA GCACTTTACC CAGCTGCGCT 
ATCCAATCTA AATCGATCTT CGGGCGCCGC 

20 

TCAATCTCTA ACTT GAT AAA AACAGAGCTG 
GCGGAGAGTC TCGAAGAGGA GAGTACAGTG 
TCATCATGCT CTGCTCAGCC ACGCTACCGC 

25 

GTTACGCAAG ACGCTGGAGG TATTGTCCGG 
CCGGGTCGAA TTCTTGAGCG TCTCGAGCAT 

30 GTTGCTGCCA GGGCGGCAAA TGGGGAATGG 

AACGTCCGCG CCATCGCACA GAGCTTGCTT 
CTTATCGTCT CTGGAAATGA CCTGGAACAT 

35 GGCATTCCCT ATTGCCCGGT GTCTCCTGCT 

CTGCGTCACA TCGTAGGTCT TCTGCAACCG 
TTCCAGCGCG CAATT GAGAC CATTCTGCCG 

40 

GAATTGGCCG GGCGGCGCAC GGTGAGTTTT 
GAGGCAGATA ATGCCTTTGC GGCAACTGGC 
TCTGGCTCTA CCAAACTGCC TAAGGCGGTG 

45 

CAGCAGATGC TTCTGCAAAC TTTCCCGGTT 
TGGTTGCCGT GGAACCACAC CTTCGGCGGC 
50 GGCGGCACGT ACTACCTTGA CGACGGTAAA 

CGCAACTTGA GCGAAATCTC TCCCACTGCG 



CACTGCGTGC TGGCGATCCT AATGATCCGC 2 0537 

ATGCAGGTCA ACGCATCCAG GTTCTGGTCG 20597 

TCGTCGGTGG TGGCTTAGAT GGCAGCATCA 20657 

AAGAGATGCG GCTCTACCGT GAGGAGTCCT 20717 

ATGGTGATGA AGAACTGCTG CGTCTTGCCA 20777 

TTTTCAGCCG TGACGTCTCG CGCGCAATGG 20837 

GCCATATCAA TGGACCGACT GTGCATGACG 20697 

CCAGCGGCTA CGGCAGCTTC GGCAGTCGAG 2 0957 

GGCTGACCAT TCAGAATGGC CCGCGGCACT 21017 

GGGCAT CAT G CCCGCGGCGC TCGCCTCATT 21077 

TTCTCCGGTC TTGGTGGATC AAGGCCAGTC 21137 

AACGCCGAGT CCACATTGCA ACCGCAGGCA 21197 

AGTGTGTCGA TTGGTCATCC TCCGGTTGAG 21257 

ATGCGTTCTC TCGAGGCGCT TCTTCCCTTC 21317 

TGGGCTAAGA CCCGTCCAGA ACAAACCTGC 21377 

CGTCGTATCA GCTACGCGGA AATGTTCCAC 214 37 

CCTTACGGAC TATCGGCAGA GCGTCCGCTG 21497 

CTTCAGCTGG CAT TT GGGGC TATGTATGCG 21557 

TATTCACTGC TGTCGCAAGA TTTGGCGAAG 21617 

GGACTGGTCT TTGCTGCCGA TGCAGCACCT 21677 

GACGACGTGC CCGCAATCTT CACTCGAGGC 21737 

GACAGCCTGC TGGAGCAGCC TGGTGGGATT 217 97 

CCCGATACGA TTGCCAAGTT CTTGTTCACT 21857 

CCGACTACTC AGCGAATGCT CTGCGCCAAT 21917 

TTTGGTGAAG AGCCGCCGGT GCTGGTGGAC 21977 

AGCCACAACA TCGGCATCGT GTTGTACAAC 22037 

CCAACCGCCC AAGGGTTCGC C GAGAC GC T T 22097 

TACCTCACTG TGCCGAAAGG CTGGGAGGAA 22157 
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TTAGTGGGTG CCCTTGAGCG AGACAGTACC CTGCGCGAAC GCTTCTTCGC TCGCATGAAG 22217 

CTGTTCTTCT TCGCGGCGGC TGGGTTGTCG CAAGGGATCT GGGATCGTTT GGACCGGGTC 22277 

GCTGAACAGC ACTGTGGTGA GCGCATTCGC ATGATGGCGG GTCTGGGCAT GACGGAGACT 223 37 

GCTCCTTCCT GCACTTTTAC CACCGGACCG CTGTCGATGG CTGGTTACAT TGGGCTGCCA 22397 

GCGCCTGGCT GCGAGGTCAA GCTCGTTCCG GTCGATGGGA AATTGGAAGG GCGTTTCCAT 22457 

GGTCCGCACG TCATGAGCGG CTACTGGCGT GCTCCTGAAC AAAATGCCCA AGCGTTCGAC 22517 

GAGGAAGGCT ATTACTGCTC CGGTGATGCC ATCAAATTGG CAGATCCTGC CGATCCTCAG 22577 

AAAGGTCTGA TGTTTGACGG TCGAATTGCT GAAGACTTCA AGCTGTCCTC AGGGGTATTT 22637 

GTCAGCGTTG GGCCATTGCG CACGCGGGCG GTTCTGGAAG GCGGCTCTTA CGTCCTGGAC 22697 

GTAGTGGTTG CTGCTCCTGA TCGTGAATGC CTTGGATTGC TCGTGTTTCC GCGTCTTCTC 2 27 57 

GACTGCCGTG CCTTGTCGGG GCTAGGAAAA GAGGCGTCGG ACGCCGAGGT GCTTGCCAGT 22817 

GAGCCGGTTC GGGCCTGGTT TGCTGACTGG CTCAAACGAC TCAATCGAGA AGCAACTGGC 228 77 

AATGCCAGTC GCATCATGTG GGTAGGGCTC CTCGATACGC CGCCGTCGAT TGATAAGGGC 22937 

GAGGTCACTG ACAAGGGCTC GATCAACCAG CGCGCTGTTT TGCAATGGCG GTCGGCGAAA 22997 

GTTGATGCGC TGTATCGTGG T GAAGAT CAA TCCATGCTGC GTGACGAGGC C AC ACT GT GA 23057 

GTTGGTCAGG GGGGGCT T AC TCGGCGTTTT CCGACACTGC GTTGGTTGCG GCAGTGCGCA 2 3117 

CCCCCTGGAT TGATTGCGGG GGTGCCCTGT CGCTGGTGTC GCCTATCGAC TTAGGGGTAA 23177 

AGGTCGCTCG CGAAGTTCTG ATGCGTGCGT CGCTTGAACC ACAAATGGTC GATAGCGTAC 2 32 37 

TCGCAGGCTC TATGGCTCAA GCAAGCTTTG ATGCTTACCT GCTCCCGCGG CACATTGGCT 2 3297 

TGTACAGCGG TGTTCCCAAG TCGGTTCCGG CCTTGGGGGT GCAGCGCATT TGCGGCACAG 2 3357 

GCTTCGAACT GCTTCGGCAG GCCGGCGAGC AGATTTCCCA AGGCGCTGAT CACGTGCTGT 2 3417 

GTGTCGCGGC AGAGTCCATG TCGCGTAACC CCATCGCGTC GTATACACAC CGGGGCGGGT 23477 

TCCGCCTCGG TGCGCCCGTT GAGTTCAAGG ATTTTTTGTG GGAGGCATTG TTTGATCCTG 2 3537 

CTCCAGGACT CGACATGATC GCTACCGCAG AAAACCTGGC GCGCCTGTAC GGAATCACCA 2 3597 

GGGGAGAAGC TAATTCCTAC GCGGTAAGCA GCTTCGAGCG CGCATTGAGG GCGCAAGAGG 2 3657 

AGAAATGGAT TGACCAAGAG ATCGTGGCTG TTACGGATGA ACAGTTCGAT TTAGAGGGCT 2 3717 

ACAACAGTCG AGCAATTGAA CTGCCTCGGA AGGCAAAATT GTTGATCGTG ACAGTCATCC 2 37 77 

GCGGCCTAGC AGTCTTTGAA GCCCTTTCCC GATTGAAGCC TGTTCATTCT GGCGGGGTGC 2 38 37 
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AGACTGCGGG 
AGTCGTCTGC 
AGCCCGAGCA 
ATCTTAGTTT 
TAGCGGTACA 
TTGCACTTGG 
AATTGCAAGC 
GGATGGCGGT 
TTAACAGAGT 
GCGCACGAAG 
ATTAGTTTCG 
GCACTCGTAT 
TTGTCAGGGT 
CTGAAGGTTC 
TCGATCCTCC 
CAGCGCGGAC 
ATTGAGGTCG 
TTGATGGTTG 
GCACTGATGG 
CTTGGCGGCG 
CGTCAGTTAG 
GACTTGGCTG 
ACTAGGCGGA 
CAACT GGTTT 
GAGTGCCAGA 
GTCCAGGCAA 
AAGGCACGCG 
GGAGATATGG 



CAACAGCTGT 
GACACAGCCG 
TATGGGGCTC 
GAGGGATATC 
GCATGAATTG 
ACACCCGCTT 
TAATAACTTT 
TCTTTTAGAG 
TGACCACTAT 
GAGGGCTCGA 
CTCGTATGGC 
TATGTGTCGG 
TGGTGGAAAA 
TGGAGCAGCG 
TAAGTCAGGT 
GATCTGAGTT 
GTAGTAACGC 
CCGATAAAAA 
GGCATTTAAT 
TAACTTTGTT 
TTCCGCCATT 
ATGTCGGGGA 
TGGCGATTGG 
CATCGTCCAG 
AGCTTTCGGT 
TAGCAAAAAG 
GTGGTGAAAG 
CGGAACTGGG 



GCCGTAGTGG 
GTCTTGGCTA 
GGCCCTGCGC 
GACCTCTTTG 
GGTATTGAGC 
GCCGCGACCG 
CGATATGGAA 
AATCCCCACT 
CCACT GAGCT 
AAATCTCTGC 
AGAAAGTTTA 
GCTGATTGTT 
GAGCGCGATA 
CGCCTTATTC 
GATAGCTGAA 
ACTTAAATTC 
TGCGGCCGAT 
GCTGAATGTT 
TGAGGATCAG 
TACGATGCTC 
AAAGTCGACG 
CAGCAGGCGC 
ACTGCGTAAT 
CGACCTTTCG 
CGCCCAGGTC 
CACCGAAGAG 
TGTCGTTAAC 
AGACGCAATG 



ACGGCGCCGC 
GGATACTGGC 
CCGCGATTCG 
AGATAAACGA 
ACTCAAAACT 
GATTGCGTCT 
TTGCCTCGGC 
TCGGTTCGTC 
AACGGGCATC 
TAAAAACAAG 
GGAGTCCAGG 
ACCGGCACGG 
GCTGGTGAGT 
ATCGCCGATG 
GTTAATGATG 
GCTGCTTCTT 
AAGTTGCAGT 
GAGTATGAGC 
ARTGAAAAAG 
ATGAGTGCTT 
GTGCAGCTTG 
AAGGATGAAA 
CTGGTCGGTG 
GCCATCTGTG 
TCTACCGCCG 
GCAGCAACAG 
AAGGCCGTTG 
GAGCGGCTTC 



GGCGGCTTTG 
TACCTCCGTA 
CCTGCTGCTT 
GGCGCAGGCC 
TAATATTTGG 
CTGCATGACC 
ATGCATTGGT 
CTCTGCACGA 
TCCTTTGTTG 
AAGAAGGAAC 
CTAAACTTGC 
GTTTCTACAG 
TGCGGGCGAA 
AAGGGTCGCT 
CTATAGATAT 
CGCGCGAAGC 
CGGGCGAACC 
AATTGAGTTC 
TTCCACTAAT 
ATTCGGTCTG 
CCGAGCGGAT 
TCGGTCAGTT 
ATATTGGTCA 
CTCAGGCTCA 
TGAACGAGTT 
TCGCCGTCTT 
ATTTCATTGA 
AGAACGACAG 



GTGGCTCGAG 
GTCGGGATCG 
GCGCGTAGTG 
GCCCAAGTTC 
GGCGGGGCCA 
CTCGCTCACC 
GGGGGACAGG 
AGTTCGATGA 
CTTTGAGGTG 
AGGGAACATG 
CCTTGCCTTC 
TGTACATACC 
AATTCAGGAA 
GAAGCAGCGC 
TTTTGACTTT 
AAGTTACTCC 
AAGTGACGCA 
TGCTGTGAAT 
CTACTATATG 
GTTCATTTCG 
TGCATCAGGC 
GCAAAGTGCA 
AAGTCGTGCG 
GAT T GAT GT C 
GGTTGAAACC 
GGCCGATGAA 
GCACCTCTCC 
TGCGCAGATC 



23897 
23957 
24017 
24077 
24137 
24197 
24257 
24317 
24377 
24437 
24497 
24557 
24617 
24677 
24737 
24797 
24857 
24917 
24977 
25037 
25097 
25157 
25217 
25277 
25337 
25397 
25457 
25517 
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AATAAGGTAG 
GCGGCGATAG 
GAGGTTCGTG 
GTTTCATTGC 
ACGCATGACG 
GCTGTCGCCG 
GCTGCTGTGG 
GCCATTAAAG 
CTACAAAAAT 
TCGTTAAGGT 
CAGGCTCCGC 
GCATCGACGT 
TCTCCCCAGC 
GCACAGCAAG 
TTGCGAGCAT 
GTGCCGACAG 
C GAGCTTC AG 
CCCGGTTCTA 
TTGGCCATGC 
GCTTCGCGAT 
ATTCTGTCAT 
GCCGATTCTT 
AAATAAGGAA 
AATTTTTGGG 
TCCTCAGGAG 
AGCTGGGCTC 
TGGAGCTGCG 
CAATTGCCGA 



TAGACGTCAT 
AGGCGGCCCG 
CTTTGGCGAT 
AGCAGGGAAG 
TCGTTGGATT 
GCATCCAAGC 
TTCAAATCAA 
CGGGACAGAC 
CCGTTGATCG 
CTTCAGCGCG 
ATGGATCTTG 
CGCGTCTTGG 
TTTGCTGAGA 
GCCGAGCTTC 
CCGCGCTAGG 
CTGCGCCGGG 
CTGTGAGCCG 
TCAGCGGGCC 
TTGTTGCCTG 
GAACCGCATC 
TTTTTTGGTG 
GGGCGCTTGG 
ACCGCAT GGT 
CTATTGGCTG 
GTCAGCGATG 
GGCTCTTGAT 
TCTGAGTAGG 
CGCGGTTTCT 



TAAGGCTGTG 
TGCAGGAGAG 
GCGCACCCAA 
TGAAGCTGCG 
GGCCCAGCAA 
GATGAACTAT 
CCAGAATATG 
CATGAAGTCA 
ATT CCAGCT G 
GTCTGCTGGT 
TGCAGCAGCA 
TCGCTCTGTA 
AATATCCCAT 
TCGAGCTTGT 
TCAGCCTGCA 
CGTAGGTCAT 
GCGTAAGGCA 
GCTTTCGAAA 
AACCTTCGTT 
GAGATGCTGA 
GCTTTGAACA 
CGGCGTCGAA 
TTCTTATGTG 
AGCAGTTGCC 
AGCATTCTTG 
CGCATGAAGA 
CTGGATCGTG 
GCTGACTTTG 



GCGGAGCAGA 
CAGGGCAGGG 
CAATCGACCA 
GGCGAGTTGA 
GCCGCGCGCC 
CAGATCGCCG 
CTTGAAGTGC 
TCGAAGGAGC 
TAGCGCTCCG 
GCGTGGGCCG 
ATAGCAATTG 
CCACGATCTT 
AGGAACGCTT 
TCAGCAAGGG 
TAAGC CCAGG 
ATGGCGTCAG 
TAGCCAATCA 
GTCATGGTGT 
GACATAGGGC 
GGTCAGGATT 
GCCTGATGAA 
GCGATGCTCC 
AATTTGTCTG 
TCTATATGGT 
GTTTGAATGG 
AGGCGCACCT 
CGATTGCAAT 
GCAATCGCAG 



CCAATCTGCT 
GCTTTGCGGT 
AAGAAATTGA 
TGCGGCGTGG 
GCGCTACTCG 
CTGGAGCAGA 
ATAAGATGGC 
TTGCTCACCT 
GGTGGCTGAA 
CTAGCCTAAC 
TTCACGTTCG 
CTTCAGCTCT 
GTCCGGCTTG 
AACCAGTTGT 
GCTCGCTTCG 
GGCTTCAATC 
ATTGATTCAG 
TAGCCGGTAG 
AGAGGTGCGT 
TTTCCTTAAC 
AGGTGGTCTC 
ACTACCGATT 
GCATACTCCA 
TATTCAGAAT 
TGCCCCGGTC 
GGAGCAGGGG 
GCTTCTGGAA 
CCGTGAGCAA 



AGCCCTGAAT 
CGTGGCGGAT 
GAGGCTAGTG 
CAAGGTCCGG 
AAATTACCCA 
GCAGCAAGGG 
TGACGAGTCC 
CGGCAGTGCG 
ACGCGCATTT 
TGTTGCGCTT 
TCATCACTCA 
TTGAGCTGCG 
CAGCGCACGC 
GGTGGTTCGA 
ATGATTAGAA 
AGGCCCTGAG 
GAGCGTATCG 
GGTCTTTTTC 
TTGCCGCTTC 
TCGCGTAAGC 
GCCCTTTGAG 
AAGATAATTA 
GCTCAAGGGC 
AACAATTGAC 
GGAGCTGAGC 
CCTGCAAACT 
AATCGTGAAG 
ACACTGCTTT 



25577 
25637 
25697 
25757 
25817 
25877 
25937 
25997 
26057 
26117 
26177 
26237 
26297 
26357 
26417 
26477 
26537 
26597 
26657 
26717 
26777 
26837 
26897 
26957 
27017 
27077 
27137 
27197 
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GCGACATTGC TGGCTCGGTG GCAAGCCTGA AGGATAGCCG CGAGCACGTG GCCAAATGGA 272 57 

TGGAGCCCGA ACATCACAAG GCGATGTTTC CAGGGGCGGA GGCACGCGTT GAGTTTCAGC 27317 

CGCTGGGTGT CGTTGGGGTC ATTAGTCCCT GGAACTTCCC TATCGTACTG GCCTTTGGGC 27 377 

CGCTGGCCGG CATATT C GCA GCAGGTAATC GCGCCATGCT CAAGCCGTCC GAGCTTACCC 27437 

CGCGGACTTC TGCCCTGCTT GCGGAGCTAA TTGCTCGTTA CTTCGATGAA ACT GAGCTGA 27497 

CTACAGTGCT GGGCGACGCT GAAGTCGGTG CGCTGTTCAG TGCTCAGCCT TTCGATCATC 27 557 

TGATCTTCAC CGGCGGCACT GCCGTGGCCA AGCACATCAT GCGTGCCGCG GCGGATAACC 27 617 

TAGTGCCCGT TACCCTGGAA TTGGGTGGCA AATCGCCGGT GATCGTTTCC CGCAGTGCAG 27 677 

AT AT GGCGGA CGTTGCACAA CGGGTGTTGA CGGTGAAAAC CTTCAATGCC GGGCAAATCT 277 37 

GTCTGGCACC GGACTATGTG CTGCTGCCGG AAGAATCGCT GGATAGCTTT GTCGCCGAGG 277 97 

CGACGCGCTT CGTGGCCGCA ATGTATCCCT CGCTTCTAGA TAATCCGGAT TACACGTCGA 27 8 57 

TCATCAATGC CCGAAATTTC GACCGTCTGC ATCGCTACCT GACTGATGCG CAGGCAAAGG 27917 

GAGGGCGCGT CATTGAAATC AATCCTGCGG CCGAAGAGTT GGGGGATAGT GGTATCAGGA 27 977 

AGATCGCGCC CACTTTGATC GTGAATGTGT CGGATGAAAT GCTGGTCTTG AACGAGGAGA 2 8037 

TCTTTGGTCC GCTGCTCCCG ATCAAGACTT ATCGTGATTT CGACTCGGCT ATCGACTACG 28097 

TCAACAGCAA GCAGCGACCA CTTGCCTCGT ACTTCTTCGG CGAAGATGCG GTTGAGCGTG 2815 7 

AGCAAGTGCT TAAGCGTACG GTTTCGGGCG CCGTGGTCGT GAACGATGTC ATGAGCCATG 28217 

TGATGATGGA TACGCTT CCA TTTGGTGGTG TGGGGCACTC GGGGATGGGG GCATATCACG 28277 

GCATTTATGG TTTCCGAACC TTCAGCCATG CCAAGCCTGT TCTCGTGCAA AGTCCTGTGG 283 3 7 

GTGAGTCGAA CTTGGCGATG CGCGCACCCT ACGGAGAAGC GATCCACGGA CTGCTCTCTG 28 397 

TCCTCCTTTC AACGGAGTGT TAGAACCGTT GGTAGTGGTT TTGGACGGGC CCAGGAGCAT 284 57 

GCGCTTCTGG GCCCGTTTCT TGAGTATTCA TTGGATAGTC ACGCGTGGTA GCTTCGAGCC 28517 

TGCACAGCTG ATGAGCACCC T GGAAGGC GC GCTGTACGCG GACGACTGGG TTCATCTTCG 28577 

C CAT T CAT GA CGGAACTCCG TTCCCCAGTA CCGCGATGAC TATTTTGCCT CTTCCGATGT 28 63 7 

CCGATTCCAC GCCGCCTGAC GCTAAGC GGG GGCGGGGGCG CCCGCATCCC AGCCCAGACA 2 8 697 

GCAACAAATG AGTAGGCTCT TGGATGCCGC GGCGGCTGAG ATT GGTAACG GCAATTTCGT 2 87 57 

CAATGTGACG ATGGATTCGA TTGC CCGTGC TGCCGGCGTC TCAAAAAAAA CGCTGTACGT 28817 

CTTGGTGGCG AGCAAGGAAG AACT CATTTC CCGGTTAGTG GCTCGAGACA TGTCCAACCT 28877 
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TGAGCTGCTG 
CTATCTGCTG 
GGCCGTGCAG 
AGAGCGTTGC 
CGCTCCTGGA 
TTTGAAATTA 
GGTCACAATC 
GCTGTGGCGG 
CGCGAGTGAG 
CATGGCTAAT 
CAAGCGGCGA 
CCTGTGGCTG 
GTTGAGTCAG 
GAGCGCTGAT 
CGTAGCCAAG 
GCTGATTGAA 
GAAGCGGCGG 
CGCCGCGCTG 
CCTTGAGTGT 
ACTTCCCTTG 
AAGCGCGCTC 
CGCCGAACAA 
ACGGGCCGTC 
C AC CT GAT T C 
GGCAGGCAGC 
AGTCTGCGGC 
GCGTGCTTGG 
CCCATTCTTC 



CTTTGTCACG 
CTCTGGGCGC 
GGGCGTGAAA 
CTCAGCTTGC 
GATATCGACT 
TTTGGCCTGG 
GCTCTCGATG 
CGTGACCTAT 
GCCGAGCCGG 
CATCGCGTCC 
GTCGATTGTG 
ATTATCTTGA 
TCGTTCACCG 
GACTCCGCGC 
CAGGGCATTG 
GCGGTGCAGG 
GAGGTGGATC 
GACGCCTGCG 
CCTGCTTCCG 
GGCCACGAGG 
GAACCGTCCT 
CTCGGACTCC 
GTGTCTGGGG 
ACCCGTAAAC 
ATTGAATGCC 
GGAGTGATGG 
TTGCCGACAA 
CGCTGGCTTG 



AGGTTGAGTC 
GCTTGACCTT 
GTGCCCCGGG 
TTCGGGGATG 
CCGCAGTGGA 
GGATCCAGAG 
CATTCCGTCG 
TTGTCTAGTG 
CGGGCAGCTT 
TCCACTTCTT 
CTGGTCGGTT 
GCGGTGGCCA 
CTAGTGAAGA 
TCCACCAAAT 
GCTGCACGTG 
AAATAGGTCA 
GGGTAAACAT 
CGAAGATCGA 
CCAACCCGTT 
CTTAGCGTCC 
GCTC GAGATT 
AT CAGGGTTT 
CTGATGCGGT 
AGTACCGTCG 
GAGGAAATTC 
GGAGTGTTCC 
ATGGTTGCGC 
CCGATCATGC 



TGCGGAGGCC 
GTCCCCTCTT 
CCTGGCGAGA 
GTT GGCAAGG 
GCTTATCGAT 
CGGCTGGACC 
GTGCTATGTC 
GTCGGCGCGA 
CCGAGACATT 
GCAGCGT CAT 
TGGAGAAGGA 
GGATGCCGCT 
GGTGGCTCAC 
TTTGAAGCTC 
GAGTGAATCC 
TCAGGAGGGG 
TGAGGCGGAA 
CATTGGTTGC 
CGACCTCCGA 
CTATCTCGTC 
GGGTGGCGCC 
CGGGAATACG 
GAAGCATGCG 
CCTCCGTGGG 
CCACCATGTC 
TTTGTCCCTG 
TAAGCGCCGC 
GGCAGATCTG 



CTTCAGGATG 
GCTTTGGGCA 
ATCTGGTATC 
ATGGCAAGCC 
TCGCTCCTGA 
GATGATCAGA 
GTTTAGCACC 
AATTCGATAA 
GCCTTTCACC 
CGCGCTCAGG 
AGTACTTGGG 
GGCCCCAATG 
GTCAATGGCT 
CCGGAT GTTT 
GCTGACCACC 
AATGTCTTCC 
AAAAAGGTCC 
GGCTACCACA 
CTCTTGCAGG 
AAGGAATAGT 
GGTAAACGCC 
TGCGCAATTG 
GGCGAACATC 
TGCTACGCGC 
GTGTTCCGAT 
CTGCGTTCTT 
CAAGTCCTCT 
CGAACCCGTG 



AGTTGCGAAA 
TTTTTCTGAT 
GAGAGGGGGC 
GGGAGCT GAT 
TCTCACAGCC 
TCAATCAACG 
GTTCTCGCGG 
GAAAGCT GGG 
TGGCCCAGAG 
TCCTTTGAGT 
CTGCCAGTTT 
GAGAACATCG 
CCATCCTCCG 
CCTGGAAAGT 
CGGCTATGAC 
TTCCTCTCTC 
TCGCGGAACT 
CGGACGTCAA 
GCGCGAAGTA 
GTGCCGCCCG 
CCCCGTTCGA 
ACCGCAACAA 
TCCTTGCCCA 
TTCAGCATGT 
GCAGTGCTTG 
CGTCTCTGCG 
TCGGCGTCTT 
GAGCGGCATT 



28937 
28997 
29057 
29117 
29177 
29237 
29297 
29357 
29417 
29477 
29537 
29597 
29657 
29717 
29777 
29837 
29897 
29957 
30017 
30077 
30137 
30197 
30257 
30317 
30377 
30437 
30497 
30557 
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CCACCTCTCG 
CCGTCTGCGT 
CTTCGCTCGA 
CGAAGTGGAT 
CAAATAGGGA 
CGCCGCAGTG 
CAATTAATTC 
CGTTCAACCA 
GGGAGGGGAC 
CGGTCTTGGA 
GGTTGGATGA 
GTGGGTGCAC 
GCGGGTTTCA 
TAACTATTTT 
TCAGGACCGT 
GTGTCCTCCG 
ATTGGCGTAG 
AGCCATCCTG 
TGCAATATCG 
CTGGGTCTAA 
GTCAACGTGT 
CTGGGGAGTG 
CCCGAATTCT 
CAGGAATGGT 
ACTCCCATTC 
CAT C GT ATT A 
GCTGAGGAGT 
ACCTACGTGT 



GTAAAGGATG 
CCAGCACGCG 
ATGGTGCCAG 
CGGCTCCACG 
GAGCGGATCG 
GTAACCGGTT 
GCGTCGCAAT 
GAT GC GT C CA 
GGCGCCTGGC 
GAGTTCGGCT 
TTTTCTGCAT 
GGGATTGAAG 
GGATGGTGCA 
GGCGGAATGG 
AAAAAGGAAA 
GTATCGGTGC 
AT C GC AAC AT 
AAGGCATCGA 
CCGGGGTGCC 
AGTATCTGAC 
CCTCTGTGCT 
TTGTTGGATT 
GCTACCAGTA 
T CAT GAGGAC 
TCAATGAGTT 
AGCGCCCAGC 
CACGTTGGAT 
AAGTTCGTGG 



AGGCGACCAA CCAGCGCGGA CGTATAGCCA 
GGCTCGGTGC CGATGCCGTA GTGCGCAATA 
AGGAATTC GC CGTAGTAGGT CCCCAAATCC 
CGTACTGCGC CTTCCAGAGA GTGCAAGTTC 
GCGTTGCTGA AGCGCTCCTT CAGAAGGGCG 
CGCAGCATGA TTCCGCGGGC GCGGGCGAAG 
GCACCCAGTC CGCTGCTGTG GAGGAGCAGC 
TCGCCAGGGC TGAAAAGGAG GGATTCAGTG 
TCCAATTGCT CGATGGCGCC GCGATTGAGT 
AGGGAGATAA ATTTGCTGGC CATGGTGGCG 
T CT GC AT CAT GAAATTCATG AAAT CAT CAC 
GTTGCTAGGA GAGTGCATTG CTCGTAAGCC 
TGGAAATGGC ATGAGCTTTG CTGGATATGA 
AAGCACGATT CCTCGCCCGG TAGAGCGGTA 
GAGCAT GCAA CTGACCAACA AGAAAATCGT 
CGAAACTGCC CGCGTTCTGC GCTCTCACGG 
GCCGAGCCTG ACTCTGGATG CTTTCGTTCA 
TAAGGCCATC TCTCAGCTGC CGGAGAAAAT 
CGGCACTGCC GATCCTCAGC TCGTCGCAAA 
CGAGGCAGTC CTGTCGCGCA TTCAACCCGG 
TGGCGCCGAG TGGCCGGCCC GCCTT CAGTT 
CTCCGAAGGC CAGGCATGGC TTAAGCAGAA 
TTTCAAAGAA GCACTGATCG TTTGGTCTCA 
GTCTGTACGC AT G AACT GC A TCGCCCCCGG 
CGTCACCATG CTGGGTCAAG AGCGGACTCA 
ATATGCCGAT GAAGTGGCCG CGGT GATTGC 
CAACGGCATA AATATTCCAG TGGACGGAGG 
ACGCCCTTTG CACGCGCACT ATATCTCTAT 



ATGGCATAAC 
TGTTCATCAT 
ATGTCGAAGT 
GGGCCGGCGG 
GCATCTTTGG 
CCCACGCTTT 
ATTCGCGCGC 
AGGTCATGAA 
GTCTTGGGCG 
GCCCCTGATG 
TTTTCGGGGG 
CAGGAAGCAC 
TTAGAGACAT 
ACCGCGACAT 
CGTCACCGGA 
CGCCACAGTG 
GGCTGACCTG 
TGACGGACTC 
CGTGAACTAC 
TGGTTCGATT 
GCATAAGGAG 
TCCAGTGGCC 
AGTTCAGGCG 
CCCTGTATTC 
GGCGGACGCT 
ATTCATGTGT 
TTTGGCATCG 
GCAGCAGCTG 



30617 
30677 
30737 
30797 
30857 
30917 
30977 
31037 
31097 
31157 
31217 
31277 
31337 
31397 
31457 
31517 
31577 
31637 
31697 
31757 
31817 
31877 
31937 
31997 
32057 
32117 
32177 
32237 
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AAAGCAGCTT TGGTTTTGAT CGGAGGTAGC GGGCGGAAAG GTGCAGAATG TCTAAATAAT 32297 

AAAGGATTCT TGTGAAGCTT TAGTTGTCCG TAAACGAAAA TAAAAATAAA GAGGAAT GAT 32357 

AT GAAAGCAA GTAGATCAGT CTGCACTTTC AAAATAGCTA CCCTGGCAGG CGCCATTTAT 32417 

GCAGCGCTGC CAATGTCAGC TGCAAACTCG AT GCAGCT GG AT GT AGGT AG CTCGGATTGG 32477 

ACGGTGCGTT GGGGACAACA CCCTCAAGTA TAGCCTTGCC TCTCGCCTGA ATGAGCAAGA 32537 

CTCAAGTCTG ACAAATGCGC CGACTGTCAA TGGTTATATC CGGATATTCA AAGT CAGGGT 32597 

GATCGTAACT TTGACCGGGG GCTTGGTATC CAATCGTCTC GATATTCTGT CGGAGCTTGA 32657 

TGTCAGTCGT GACTGGTTGG TG 32679 

(2) ANGABEN ZU SEQ ID NO: 2: 

(i) SEQUENZKENNZEICHEN : 

(A) LANGE: 284 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 2: 

Met He Ala He Thr Gly Ala Ser Gly Gin Leu Gly Arg Leu Thr He 
15 10 15 

Glu Ala Leu Leu Lys Arg Leu Pro Ala Ser Glu He He Ala Leu Val 
20 25 30 

Arg Asp Pro Asn Lys Ala Gly Asp Leu Thr Ala Arg Gly He Val Val 
35 40 45 

Arg Gin Ala Asp Tyr Asn Arg Pro Glu Thr Leu His Arg Ala Leu He 
50 55 60 

Gly Val Asn Arg Leu Leu Leu He Ser Ser Ser Glu Val Gly Gin Arg 



Thr Ala Gin His Arg Ala Val He Asp Ala Ala Lys Gin Glu Gly He 

85 90 95 

Glu Leu Leu Ala Tyr Thr Ser Leu Leu His Ala Asp Lys Ser Ala Leu 

100 105 110 

Gly Leu Ala Thr Glu His Arg Asp Thr Glu Gin Ala Leu Thr Glu Ser 

115 120 125 

Gly He Pro His Val Leu Leu Arg Asn Gly Trp Tyr His Glu Asn Tyr 
130 135 140 

Thr Ala Gly He Pro Val Ala Leu Val His Gly Val Leu Leu Gly Cys 



BNSDOCID: <EP__0845S32A2_I_> 



33 



EP 0 845 532 A2 



Ala Gin Asp Gly Leu lie Ala Ser Ala Ala Arg Ala Asp Tyr Ala Glu 
165 170 175 

Ala Ala Ala Val Val Leu Thr Gly Glu Asn Gin Ala Gly Arg Val Tyr 
180 185 190 

Glu Leu Ala Gly Glu Pro Ala Tyr Thr Leu Thr Glu Leu Ala Ala Glu 
195 200 205 

Val Ala Pro Gin Ala Gly Lys Thr Val Val Tyr Ser Asn Leu Ser Glu 
210 215 220 

Ser Asp Tyr Arg Ser Ala Leu lie Ser Ala Gly Leu Pro Asp Gly Phe 
225 230 235 240 

Ala Ala Leu Leu Ala Asp Ser Asp Ala Gly Ala Ala Lys Gly Tyr Leu 
245 250 255 

Phe Asp Ser Ser Gly Asp Ser Arg Lys Leu lie Gly Arg Pro Thr Thr 
260 265 270 

Pro Met Ser Glu Ala lie Ala Ala Ala He Gly Arg 
275 280 

(2) ANGABEN ZU SEQ ID NO: 3: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1065 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..1062 

(D) SONSTIGE ANGABEN: /product= 

"Vanillinsaeure-O-Demethylase" 
/gene= "vanA" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 3: 

ATG TTT CCG AAA AAC GCC TGG TAT GTC GCT TGC ACT CCG GAT GAA ATC 
Met Phe Pro Lys Asn Ala Trp Tyr Val Ala Cys Thr Pro Asp Glu He 
285 290 295 300 
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GCA GAT AAG CCG CTA GGC CGT CAG ATC TGC AAC GAA AAG ATT GTC TTC 

Ala Asp Lys Pro Leu Gly Arg Gin lie Cys Asn Glu Lys He Val Phe 

30S 310 315 

TAT CGG GGG CCG GAA GGA CGT GTT GCC GCG GTA GAG GAT TTC TGC CCT 

Tyr Arg Gly Pro Glu Gly Arg Val Ala Ala Val Glu Asp Phe Cys Pro 

320 325 330 

CAT CGC GGG GCA CCG TTG TCC CTG GGT TTC GTT CGC GAC GGT AAG CTG 

His Arg Gly Ala Pro Leu Ser Leu Gly Phe Val Arg Asp Gly Lys Leu 

335 340 345 

ATT TGC GGC TAC CAC GGT TTG GAA ATG GGC TGC GAG GGC AAA ACG CTC 

He Cys Gly Tyr His Gly Leu Glu Met Gly Cys Glu Gly Lys Thr Leu 

350 355 360 

GCG ATG CCC GGG CAG CGC GTT CAA GGC TTC CCT TGC ATC AAA AGC TAC 

Ala Met Pro Gly Gin Arg Val Gin Gly Phe Pro Cys He Lys Ser Tyr 

365 370 375 380 

GCG GTA GAA GAG CGA TAC GGC TTT ATC TGG GTA TGG CCT GGT GAT CGC 

Ala Val Glu Glu Arg Tyr Gly Phe He Trp Val Trp Pro Gly Asp Arg 

385 390 395 

GAG CTG GCG GAT CCG GCG CTT ATT CAC CAC CTG GAG TGG GCC GAT AAT 

Glu Leu Ala Asp Pro Ala Leu He His His Leu Glu Trp Ala Asp Asn 

400 405 410 

CCG GAG TGG GCC TAT GGT GGC GGT CTC TAC CAC ATC GCT TGT GAT TAC 

Pro Glu Trp Ala Tyr Gly Gly Gly Leu Tyr His He Ala Cys Asp Tyr 

415 420 425 

CGC CTG ATG ATC GAC AAC CTC ATG GAT CTC ACC CAT GAG ACC TAT GTG 

Arg Leu Met He Asp Asn Leu Met Asp Leu Thr His Glu Thr Tyr Val 

430 435 440 

CAT GCC TCC AGC ATC GGT CAA AAG GAA ATT GAC GAG GCA CCG GTC AGT 

His Ala Ser Ser He Gly Gin Lys Glu He Asp Glu Ala Pro Val Ser 

445 450 455 460 

ACT CGT GTC GAG GGC GAC ACC GTG ATT ACC AGC CGG TAC ATG GAT AAC 

Thr Arg Val Glu Gly Asp Thr Val He Thr Ser Arg Tyr Met Asp Asn 

465 470 475 

GTC ATG GCC CCT CCG TTC TGG CGT GCT GCG CTT CGT GGC AAC GGC TTG 

Val Met Ala Pro Pro Phe Trp Arg Ala Ala Leu Arg Gly Asn Gly Leu 

480 485 490 

GCC GAC GAT GTA CCG GTT GAT CGC TGG CAG ATC TGC CGA TTC GCT CCT 

Ala Asp Asp Val Pro Val Asp Arg Trp Gin He Cys Arg Phe Ala Pro 

495 500 505 

CCG AGT CAC GTA CTG ATC GAA GTA GGT GTG GCT CAT GCG GGC AAA GGC 
Pro Ser His Val Leu He Glu Val Gly Val Ala His Ala Gly Lys Gly 

510 515 520 
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GGA TAT GAC GCG CCG GCG GAA TAC AAG GCC GGC AGC ATA GTG GTC GAC 

Gly Tyr Asp Ala Pro Ala Glu Tyr Lys Ala Gly Ser lie Val Val Asp 

525 530 535 540 

TTC ATC ACG CCG GAG AGT GAT ACC TCG ATT TGG TAC TTC TGG GGC ATG 

Phe lie Thr Pro Glu Ser Asp Thr Ser lie Trp Tyr Phe Trp Gly Met 

545 550 555 

GCT CGC AAC TTC CGT CCG CAG GGC ACG GAG CTG ACT GAA ACC ATT CGT 

Ala Arg Asn Phe Arg Pro Gin Gly Thr Glu Leu Thr Glu Thr lie Arg 

560 565 570 

GTT GGT CAG GGC AAG ATT TTT GCC GAG GAC CTG GAC ATG CTG GAG CAG 

Val Gly Gin Gly Lys lie Phe Ala Glu Asp Leu Asp Met Leu Glu Gin 

575 580 585 

CAG CAG CGC AAT CTG CTG GCC TAC CCG GAG CGC CAG TTG CTC AAG CTG 

Gin Gin Arg Asn Leu Leu Ala Tyr Pro Glu Arg Gin Leu Leu Lys Leu 

590 595 600 

AAT ATC GAT GCC GGC GGG GTT CAG TCA CGG CGC GTC ATT GAT CGG ATT 

Asn lie Asp Ala Gly Gly Val Gin Ser Arg Arg Val lie Asp Arg lie 

605 610 615 620 

CTC GCA GCT GAA CAA GAG GCC GCA GAC GCA GCG CTG ATC GCG AGA AGT 

Leu Ala Ala Glu Gin Glu Ala Ala Asp Ala Ala Leu He Ala Arg Ser 

625 630 635 

GCA TCA TGA 
Ala Ser 



(2) ANGABEN ZU SEQ ID NO: 4: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 354 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 4: 

Met Phe Pro Lys Asn Ala Trp Tyr Val Ala Cys Thr Pro Asp Glu lie 
15 10 15 

Ala Asp Lys Pro Leu Gly Arg Gin He Cys Asn Glu Lys He Val Phe 
20 25 30 

Tyr Arg Gly Pro Glu Gly Arg Val Ala Ala Val Glu Asp Phe Cys Pro 



His Arg Gly Ala Pro Leu Ser Leu Gly Phe Val Arg Asp Gly Lys Leu 
50 55 60 
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lie Cys Gly Tyr His Gly Leu Glu Met Gly Cys Glu Gly Lys Thr Leu 

65 ™ 75 

Ala Met Pro Gly Gin Arg val Gin Gly Phe Pro Cys He Lys Ser Tyr 

85 90 
Ala Val Glu Glu Arg Tyr Gly Phe He Trp Val Trp Pro Gly Asp Arg 

ioo i° 5 110 

Glu Leu Ala Asp Pro Ala Leu He His His Leu Glu Trp Ala Asp Asn 
115 120 125 

Pro Glu Trp Ala Tyr Gly Gly Gly Leu Tyr His lie Ala Cys Asp Tyr 

130 135 140 

Arg Leu Met He Asp Asn Leu Met Asp Leu Thr His Glu Thr Tyr Val 
145 150 155 

His Ala ser Ser He Gly Gin Lys Glu He Asp Glu Ala Pro Val Ser 

165 1™ 175 

Thr Arg Val Glu Gly Asp Thr Val He Thr Ser Arg Tyr Met Asp Asn 

180 i85 
Val Met Ala Pro Pro Phe Trp Arg Ala Ala Leu Arg Gly Asn Gly Leu 
195 200 205 

Ala Asp Asp Val Pro Val Asp Arg Trp Gin He Cys Arg Phe Ala Pro 

210 215 220 

Pro ser His Val Leu He Glu Val Gly Val Ala His Ala Gly Lys Gly 
225 230 235 

Gly T yr Asp Ala Pro Ala Glu Tyr Lys Ala Gly Ser He Val Val Asp 
245 250 

Phe He Thr Pro Glu Ser Asp Thr Ser He Trp Tyr Phe Trp Gly Met 
260 265 270 

Ala Arg Asn Phe Arg Pro Gin Gly Thr Glu Leu Thr Glu Thr He Arg 
275 280 285 

val Gly Gin Gly Lys He Phe Ala Glu Asp Leu Asp Met Leu Glu Gin 

290 295 300 

Gin Gin Arg Asn Leu Leu Ala Tyr Pro Glu Arg Gin Leu Leu Lys Leu 
305 310 315 

Asn He Asp Ala Gly Gly Val Gin Ser Arg Arg Val He Asp Arg He 

325 330 
Leu Ala Ala Glu Gin Glu Ala Ala Asp Ala Ala Leu He Ala Arg Ser 
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(2) ANGABEN ZU SEQ ID NO: 5: 

(i) SEQUENZKENNZEI CHEN : 

(A) LANGE: 954 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKiiLS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..951 

(D) SONSTIGE ANGABEN :/product= "Vanillin-O-Demethylase" 
/gene= "vanB" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 5: 

ATG ATT GAG GTA ATC ATT TCG GCG ATG CGC TTG GTT GCT CAG GAC ATC 
Met lie Glu Val lie He Ser Ala Met Arg Leu Val Ala Gin Asp He 
355 360 365 370 

ATT AGC CTT GAG TTT GTC CGG GCT GAC GGT GGC TTG CTT CCG CCT GTC 
He Ser Leu Glu Phe Val Arg Ala Asp Gly Gly Leu Leu Pro Pro Val 
375 380 385 

GAG GCC GGC GCC CAC GTC GAT GTG CAT CTT CCT GGC GGC CTG ATT CGG 
Glu Ala Gly Ala His Val Asp Val His Leu Pro Gly Gly Leu He Arg 
390 395 400 

CAG TAC TCG CTC TGG AAT CAA CCA GGG GCG CAG AGC CAT TAC TGC ATC 
Gin Tyr Ser Leu Trp Asn Gin Pro Gly Ala Gin Ser His Tyr Cys He 
405 410 415 

GGT GTT CTG AAG GAC CCG GCG TCT CGT GGT GGT TCG AAG GCG GTG CAC 
Gly Val Leu Lys Asp Pro Ala Ser Arg Gly Gly Ser Lys Ala Val His 
420 425 430 

GAG AAT CTT CGC GTC GGG ATG CGC GTG CAA ATT AGC GAG CCG AGG AAC 
Glu Asn Leu Arg Val Gly Met Arg Val Gin He Ser Glu Pro Arg Asn 
435 440 445 450 

CTA TTC CCA TTG GAA GAG GGG GTG GAG CGG AGT CTG CTG TTC GCG GGC 
Leu Phe Pro Leu Glu Glu Gly Val Glu Arg Ser Leu Leu Phe Ala Gly 
455 460 465 

GGG ATT GGC ATT ACG CCG ATT CTG TGT ATG GCT CAA GAA TTA GCA GCA 
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Gly He Gly lie Thr Pro He Leu Cys Met Ala Gin Glu Leu Ala Ala 

470 475 480 

CGC GAG CAA GAT TTC GAG TTG CAT TAT TGC GCG CGT TCG ACC GAC CGA 

Arg Glu Gin Asp Phe Glu Leu His Tyr Cys Ala Arg Ser Thr Asp Arg 

485 490 495 

GCG GCG TTC GTT GAA TGG CTT AAG GTT TGC GAC TTT GCT GAT CAC GTA 

Ala Ala Phe Val Glu Trp Leu Lys Val Cys Asp Phe Ala Asp His Val 
500 505 510 

CGT TTC CAC TTT GAC AAT GGC CCG GAT CAG CAA AAA CTG AAT GCC GCA 

Arg Phe His Phe Asp Asn Gly Pro Asp Gin Gin Lys Leu Asn Ala Ala 
515 520 525 530 

GCG CTG CTA GCG GCC GAG GCC GAA GGT ACC CAC CTT TAT GTC TGT GGG 

Ala Leu Leu Ala Ala Glu Ala Glu Gly Thr His Leu Tyr Val Cys Gly 
535 540 545 

CCC GGC GGG TTC ATG GGG CAT GTG CTT GAT ACC GCG AAG GAG CAG GGC 

Pro Gly Gly Phe Met Gly His Val Leu Asp Thr Ala Lys Glu Gin Gly 

550 555 560 

TGG GCT GAC AAT CGA CTG CAT CGA GAG TAT TTC GCC GCG GCG CCG AAT 

Trp Ala Asp Asn Arg Leu His Arg Glu Tyr Phe Ala Ala Ala Pro Asn 

565 570 575 

GTG AGT GCT GAC GAT GGC AGT TTC GAG GTG CGG ATT CAC AGC ACC GGA 

Val ser Ala Asp Asp Gly Ser Phe Glu Val Arg lie His Ser Thr Gly 
580 585 590 

CAA GTG CTT CAG GTC CCC GCG GAT CAA ACG GTC TCC CAG GTG CTC GAT 

Gin Val Leu Gin Val Pro Ala Asp Gin Thr Val Ser Gin Val Leu Asp 
595 600 605 610 

GCG GCC GGA ATT ATC GTT CCC GTT TCT TGT GAG CAG GGC ATC TGC GGT 

Ala Ala Gly He lie Val Pro Val Ser Cys Glu Gin Gly lie Cys Gly 
615 620 625 

ACT TGC ATC ACT CGG GTG GTA GAC GGA GAG CCT GAT CAT CGT GAC TTC 

Thr Cys He Thr Arg Val Val Asp Gly Glu Pro Asp His Arg Asp Phe 

630 635 640 

TTC CTC ACG GAT GCG GAG AAG GCA AAG AAC GAC CAG TTC ACC CCC TGT 

Phe Leu Thr Asp Ala Glu Lys Ala Lys Asn Asp Gin Phe Thr Pro Cys 

645 650 655 

TGC TCG CGA GCC AAG AGC GCC TGT TTG GTC TTG GAT CTC TAA 

Cys Ser Arg Ala Lys Sec Ala Cys Leu Val Leu Asp Leu 
660 665 670 



(2) ANGABEN ZU SEQ ID NO: 6: 

(i) SEQUENZKENNZEICHEN: 
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(A) LANGE: 317 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 6: 

Met lie Glu Val lie lie Ser Ala Met Arg Leu Val Ala Gin Asp lie 
15 10 15 

He Ser Leu Glu Phe Val Arg Ala Asp Gly Gly Leu Leu Pro Pro Val 
20 25 30 

Glu Ala Gly Ala His Val Asp Val His Leu Pro Gly Gly Leu lie Arg 
35 40 45 

Gin Tyr Ser Leu Trp Asn Gin Pro Gly Ala Gin Ser His Tyr Cys He 
50 55 60 

Gly Val Leu Lys Asp Pro Ala Ser Arg Gly Gly Ser Lys Ala Val His 



Glu Asn Leu Arg Val Gly Met Arg Val Gin He Ser Glu Pro Arg Asn 
85 90 95 

Leu Phe Pro Leu Glu Glu Gly Val Glu Arg Ser Leu Leu Phe Ala Gly 
100 105 110 

Gly He Gly He Thr Pro He Leu Cys Met Ala Gin Glu Leu Ala Ala 
115 120 125 

Arg Glu Gin Asp Phe Glu Leu His Tyr Cys Ala Arg Ser Thr Asp Arg 
130 135 140 

Ala Ala Phe Val Glu Trp Leu Lys Val Cys Asp Phe Ala Asp His Val 
145 150 155 160 



Ala Leu Leu Ala Ala Glu Ala Glu Gly Thr His Leu Tyr Val Cys Gly 
180 185 190 

Pro Gly Gly Phe Met Gly His Val Leu Asp Thr Ala Lys Glu Gin Gly 
195 200 205 

Trp Ala Asp Asn Arg Leu His Arg Glu Tyr Phe Ala Ala Ala Pro Asn 
210 215 220 

Val Ser Ala Asp Asp Gly Ser Phe Glu Val Arg He His Ser Thr Gly 
225 230 235 240 

Gin Val Leu Gin Val Pro Ala Asp Gin Thr Val Ser Gin Val Leu Asp 
245 250 255 
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Ala Ala Gly lie lie Val Pro Val Ser Cys Glu Gin Gly lie Cys Gly 
260 265 270 

5 Thr Cys He Thr Arg Val Val Asp Gly Glu Pro Asp His Arg Asp Phe 

275 280 285 

Phe Leu Thr Asp Ala Glu Lys Ala Lys Asn Asp Gin Phe Thr Pro Cys 
290 295 300 

10 

Cys Ser Arg Ala Lys Ser Ala Cys Leu Val Leu Asp Leu 
305 310 315 

(2) ANGABEN ZU SEQ ID NO: 7: 

15 (i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1119 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

20 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 

25 

(ix) MERKMAL : 

(A) NAME/ SCHLUSSEL: CDS 

(B) LAGE:1..1116 

30 (D) SONSTIGE ANGABEN :/prodUct= 

" Formaldehyd-Dehydrogenase" 
/gene= "fdh" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 7: 

ATG ATC AAA TCC CGC GCC GCT GTG GCG TTC GCA CCC AAT CAG CCA TTG 

Met lie Lys Ser Arg Ala Ala Val Ala Phe Ala Pro Asn Gin Pro Leu 
320 325 330 

CAG ATC GTC GAA GTG GAC GTG GCT CCG CCC AAG GCC GGT GAA GTC CTG 

Gin He Val Glu Val Asp Val Ala Pro Pro Lys Ala Gly Glu Val Leu 
335 340 345 

GTG CGG GTC GTG GCC ACC GGC GTT TGC CAC ACC GAT GCC TAC ACC CTG 

Val Arg Val Val Ala Thr Gly Val Cys His Thr Asp Ala Tyr Thr Leu 

350 355 360 365 

TCC GGC GCT GAT TCC GAG GGC GTT TTC CCC TGC ATC CTT GGT CAC GAA 

Ser Gly Ala Asp Ser Glu Gly Val Phe Pro Cys He Leu Gly His Glu 

370 375 380 

GGC GGC GGC ATT GTC GAA GCG GTG GGC GAG GGC GTC ACC TCG CTG GCG 

Gly Gly Gly He Val Glu Ala Val Gly Glu Gly Val Thr Ser Leu Ala 
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GTC GGC GAC CAC GTG ATC CCG CTC TAC ACG GCC GAA TGC CGT GAG TGC 
Val Gly Asp His Val lie Pro Leu Tyr Thr Ala Glu Cys Arg Glu Cys 



AAG TTC TTC AAG TCC GGC AAG ACC AAC CTG TGC CAG AAA GTG CGT GCT 
Lys Phe Phe Lys Ser Gly Lys Thr Asn Leu Cys Gin Lys Val Arg Ala 
415 420 425 

ACT CAG GGC AAG GGT CTG ATG CCG GAC GGC ACC TCC CGC TTC AGC TAC 
Thr Gin Gly Lys Gly Leu Met Pro Asp Gly Thr Ser Arg Phe Ser Tyr 
430 435 440 445 

AAC GGT CAG CCG ATC TAC CAC TAC ATG GGC TGC TCG ACC TTC TCC GAG 
Asn Gly Gin Pro lie Tyr His Tyr Met Gly Cys Ser Thr Phe Ser Glu 
450 455 460 

TAC ACC GTG CTG CCG GAA ATC TCC CTG GCG AAG ATT CCC AAG AAT GCG 
Tyr Thr Val Leu Pro Glu He Ser Leu Ala Lys He Pro Lys Asn Ala 
465 470 475 

CCG CTG GAG AAA GTC TGC CTG CTG GGC TGC GGC GTG ACC ACC GGC ATT 
Pro Leu Glu Lys Val Cys Leu Leu Gly Cys Gly Val Thr Thr Gly He 
480 485 490 

GGC GCG GTG CTG AAC ACT GCC AAG GTG GAG GAG GGT GCT ACC GTG GCC 
Gly Ala Val Leu Asn Thr Ala Lys Val Glu Glu Gly Ala Thr Val Ala 
495 500 505 

ATC TTC GGC CTG GGC GGC ATC GGC TTG GCG GCG ATC ATC GGC GCG AAG 
He Phe Gly Leu Gly Gly He Gly Leu Ala Ala He He Gly Ala Lys 
510 515 520 525 

ATG GCC AAG GCC TCG CGC ATC ATC GCC ATC GAC ATC AAT CCG TCC AAG 
Met Ala Lys Ala Ser Arg He He Ala He Asp He Asn Pro Ser Lys 
530 535 540 

TTC GAT GTG GCT CGC GAG CTG GGC GCC ACT GAC TTC GTC AAT CCG AAC 
Phe Asp Val Ala Arg Glu Leu Gly Ala Thr Asp Phe Val Asn Pro Asn 
545 550 555 

GAT CAC GCG AAG CCG ATC CAG GAT GTC ATC GTC GAG ATG ACT GAT GGC 
Asp His Ala Lys Pro He Gin Asp Val He Val Glu Met Thr Asp Gly 
560 565 570 

GGT GTG GAC TAC AGC TTC GAG TGC ATC GGC AAC GTT CGA CTC ATG CGC 
Gly Val Asp Tyr Sec Phe Glu Cys He Gly Asn Val Arg Leu Met Arg 
575 580 585 

GCA GCA CTC GAG TGC TGC CAC AAG GGC TGG GGC GAA TCC GTG ATC ATC 
Ala Ala Leu Glu Cys Cys His Lys Gly Trp Gly Glu Ser Val He He 
590 595 600 605 

GGC GTG GCG CCG GCG GGG GCC GAA ATC AAC ACC CGT CCG TTC CAC CTG 
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Gly Val Ala Pro Ala Gly Ala Glu He Asn Thr Arg Pro Phe His Leu 
610 615 620 

GTG ACC GGT CGC GTC TGG CGG GGT TCG GCG TTC GGT GGC GTA AAG GGC 

Val Thr Gly Arg Val Trp Arg Gly Ser Ala Phe Gly Gly Val Lys Gly 

625 630 635 

CGC ACC GAA CTG CCG AGC TAC GTG GAG AAG GCA CAG CAG GGC GAG ATC 

Arg Thr Glu Leu Pro Ser Tyr Val Glu Lys Ala Gin Gin Gly Glu lie 

640 645 650 

CCG CTG GAC ACC TTC ATC ACT CAC ACC ATG GGC CTG GAC GAC ATC AAC 

Pro Leu Asp Thr Phe lie Thr His Thr Met Gly Leu Asp Asp lie Asn 

655 660 665 

ACG GCC TTC GAC CTG ATG GAC GAA GGG AAG AGC ATC CGC TCT GTT GTT 

Thr Ala Phe Asp Leu Met Asp Glu Gly Lys Ser lie Arg Ser Val Val 

670 675 680 685 

CAA TTG AGT CGC TAG 
Gin Leu Ser Arg 



(2) ANGABEN ZU SEQ ID NO: 8: 

(i) SEQUENZKENNZE ICHEN : 

(A) LANGE: 372 flminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

<ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 8: 

Met lie Lys Ser Arg Ala Ala Val Ala Phe Ala Pro Asn Gin Pro Leu 
15 10 15 

Gin He Val Glu Val Asp Val Ala Pro Pro Lys Ala Gly Glu Val Leu 
20 25 30 

Val Arg Val Val Ala Thr Gly Val Cys His Thr Asp Ala Tyr Thr Leu 
35 40 45 

Ser Gly Ala Asp Ser Glu Gly Val Phe Pro Cys He Leu Gly His Glu 

50 55 60 

Gly Gly Gly He Val Glu Ala Val Gly Glu Gly Val Thr Ser Leu Ala 



Val Gly Asp His Val He Pro Leu Tyr Thr Ala Glu Cys Arg Glu Cys 

85 90 95 

Lys Phe Phe Lys Ser Gly Lys Thr Asn Leu Cys Gin Lys Val Arg Ala 

100 105 110 



BNSDOCID: <EP 0845532 A2J_> 



43 



EP 0 845 532 A2 



Thr Gin Gly Lys Gly Leu Met Pro Asp Gly Thr Ser Arg Phe Ser Tyr 
115 120 125 

Asn Gly Gin Pro He Tyr His Tyr Met Gly Cys Ser Thr Phe Ser Glu 
130 135 140 

Tyr Thr Val Leu Pro Glu He Ser Leu Ala Lys He Pro Lys Asn Ala 
145 150 155 160 



Gly Ala Val Leu Asn Thr Ala Lys Val Glu Glu Gly Ala Thr Val Ala 
180 185 190 

lie Phe Gly Leu Gly Gly lie Gly Leu Ala Ala He He Gly Ala Lys 
195 200 205 

Met Ala Lys Ala Ser Arg He He Ala He Asp He Asn Pro Ser Lys 
210 215 220 

Phe Asp Val Ala Arg Glu Leu Gly Ala Thr Asp Phe Val Asn Pro Asn 
225 230 235 240 

Asp His Ala Lys Pro He Gin Asp Val lie Val Glu Met Thr Asp Gly 
245 250 255 

Gly Val Asp Tyr Ser Phe Glu Cys He Gly Asn Val Arg Leu Met Arg 
260 265 270 



Gly Val Ala Pro Ala Gly Ala Glu He Asn Thr Arg Pro Phe His Leu 
290 295 300 

Val Thr Gly Arg Val Trp Arg Gly Ser Ala Phe Gly Gly Val Lys Gly 

305 310 315 320 



Pro Leu Asp Thr Phe He Thr His Thr Met Gly Leu Asp Asp He Asn 
340 345 350 



Gin Leu Ser Arg 
370 



<2) ANGABEN ZU SEQ ID NO: 9: 



SEQUENZKENNZE ICHEN : 
(A) LANGE: 1638 Basenpaare 
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(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLOSSEL: CDS 

(B) LAGE:1..1635 

15 (D) SONSTIGE ANGABEN: /prodUCt= 

"gantma-Glutamylcystein-Synthetase" 
/gene= "gcs" 



(XX) SEQUENZBESCHREIBUNG: SEQ ID NO: 9: 

ATG CCG CAA ACT CTT GCT GGA CGG TTG AGT CTG TTA TCC GGC ACC GAC 
Met Pro Gin Thr Leu Ala Gly Arg Leu Ser Leu Leu Ser Gly Thr Asp 
375 380 385 

GAA TTA ACC CTG CTT CTT CGG GGT GGT CGG GGC ATT GAG CGT GAA GCC 
Glu Leu Thr Leu Leu Leu Arg Gly Gly Arg Gly lie Glu Arg Glu Ala 
390 395 400 

TTG CGG GTC GAT GTT CAA GGT GAA CTG GCG CTG ACG CCT CAC CCG GCG 
Leu Arg Val Asp Val Gin Gly Glu Leu Ala Leu Thr Pro His Pro Ala 
405 410 415 420 

GCG CTT GGC TCT GCG TTG ACC CAT CCG ACA ATT ACT ACG GAT TAC GCC 
Ala Leu Gly Ser Ala Leu Thr His Pro Thr He Thr Thr Asp Tyr Ala 
425 430 435 

GAG GCC CTG CTT GAG TTG ATC ACT CGG CCG GCA ACC GAT TGT GCG CAA 
Glu Ala Leu Leu Glu Leu He Thr Arg Pro Ala Thr Asp Cys Ala Gin 
440 445 450 

GCC TTG GCT GAG CTG GAG GAG CTT CAC CGT TTC GTT CAT TCG AGA CTT 
Ala Leu Ala Glu Leu Glu Glu Leu His Arg Phe Val His Ser Arg Leu 
455 460 465 

GAG GGG GAG TAT CTC TGG AAT CTG TCC ATG CCT GGC AGA TTG CCG GTT 
Glu Gly Glu Tyr Leu Trp Asn Leu Ser Met Pro Gly Arg Leu Pro Val 
470 475 480 

GAT GAG CAA ATC CCG ATT GCT TGG TAT GGA CCA TCA AAT CCA GGC ATG 
Asp Glu Gin He Pro He Ala Trp Tyr Gly Pro Ser Asn Pro Gly Met 
485 490 495 500 

TTG CGC CAC GTT TAT CGC CGT GGC CTA GCT CTG CGT TAT GGC AAG CGA 
Leu Arg His Val Tyr Arg Arg Gly Leu Ala Leu Arg Tyr Gly Lys Arg 
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ATG CAA TGC ATC GCA GGG ATT CAC TAC AAC TAC TCA CTG CCG CCA GAG 

Met Gin Cys lie Ala Gly lie His Tyr Asn Tyr Ser Leu Pro Pro Glu 

520 525 530 

CTT TTC GCT GTC CTG ACC AAG GCA GAG GTC GGG TCT CCC AAG TTA CTG 

Leu Phe Ala Val Leu Thr Lys Ala Glu Val Gly Ser Pro Lys Leu Leu 

535 540 545 

GAG CGC CAG TCA GCA GCT TAC ATG CGC CAA ATT CGC AAC CTT CGG CAA 

Glu Arg Gin Ser Ala Ala Tyr Met Arg Gin lie Arg Asn Leu Arg Gin 

550 555 560 

TAC GGT TGG TTG CTG GCC TAC TTG TTC GGC GCT TCC CCC GCC ATC TGC 

Tyr Gly Trp Leu Leu Ala Tyr Leu Phe Gly Ala Ser Pro Ala lie Cys 

565 570 575 580 

AAG AGC TTC TTG GGG GGC GAG AGA GAT GAG CTA GCT CGC ATG GGG GGC 

Lys Ser Phe Leu Gly Gly Glu Arg Asp Glu Leu Ala Arg Met Gly Gly 

585 590 595 

GAT ACG CTT TAC ATG CCC TAT GCA ACC AGC TTG CGC ATG AGT GAC ATC 

Asp Thr Leu Tyr Met Pro Tyr Ala Thr Ser Leu Arg Met Ser Asp lie 

600 605 610 

GGG TAC CGC AAC CGT GCC ATG GAT GAT CTA TCT CCC AGC CTG AAT GAT 

Gly Tyr Arg Asn Arg Ala Met Asp Asp Leu Ser Pro Ser Leu Asn Asp 

615 620 625 

CTG GGT GCC TAT ATT CGC GAT ATT TGC CGT GCT CTT CAC ACT CCC GAT 

Leu Gly Ala Tyr lie Arg Asp lie Cys Arg Ala Leu His Thr Pro Asp 

630 635 640 

GCC CAG TAC CAG GCG CTG GGT GTG TTT GCA CAG GGC GAG TGG CGG CAG 

Ala Gin Tyr Gin Ala Leu Gly Val Phe Ala Gin Gly Glu Trp Arg Gin 

645 650 655 660 

TTA AAC GCC AAT CTA TTG CAG TTG GAT AGT GAG TAC TAC GCA CTG GCG 

Leu Asn Ala Asn Leu Leu Gin Leu Asp Ser Glu Tyr Tyr Ala Leu Ala 

665 670 675 

CGA CCG AAG TCA GCG CCC GAG CGG GGG GAG CGA AAC CTG GAT GCT CTC 

Arg Pro Lys Ser Ala Pro Glu Arg Gly Glu Arg Asn Leu Asp Ala Leu 

680 685 690 

GCT AGG CGT GGA GTC CAG TAT GTG GAG CTG CGC GCA CTG GAT CTC GAT 

Ala Arg Arg Gly Val Gin Tyr Val Glu Leu Arg Ala Leu Asp Leu Asp 

695 700 705 

CCA TTC TCC CCG TTA GGC ATT GGC CTG ACC TGC GCC AAG TTC CTC GAT 

Pro Phe Ser Pro Leu Gly lie Gly Leu Thr Cys Ala Lys Phe Leu Asp 

710 715 720 

GGC TTT TTG CTT TTC TGC TTG TTG TCT GAG GCG CCG GTT GAT GAT CGA 
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Gly Phe 
725 



Leu Leu Phe Cys Leu Leu ser Glu Ala Pr< 
730 735 



Val Asp Asp Arg 
740 



AAT GCC CAG CGT TCA AGA CCG GGA AAA TCT GAG CCT GGC CGG CAA GTA 
Asn Ala Gin Arg Ser Arg Pro Gly Lys Ser Glu Pro Gly Arg Gin Val 
745 750 755 

TCA CCT GGC TTA AAG CTG CAT CGG AAT GGT CAG TCC ATT CTC 
Ser Pro Gly Leu Lys Leu His Arg Asn Gly Gin Ser lie Leu 
760 765 770 

GAT TGG GCG CAG GAA GTG TTG ACG GAG GTT CAG GCC TGT GTG 
Asp Trp Ala Gin Glu Val Leu Thr Glu Val Gin Ala Cys Val 
775 780 785 

CTC GAC AGT GCA AAT GGG GGC TCA TCT CAC GCA TTG GCT TGG 
Leu Asp Ser Ala Asn Gly Gly Ser Ser His Ala Leu Ala Trp 
795 800 

CAG GAG GAA AAG GTG CTT AAT CCG GAT TGT GCG CCA TCA GCT 

Gin Glu Glu Lys Val Leu Asn Pro Asp cys Ala Pro Ser Ala 
810 815 820 

; CTC GCA GAG ATA CAC AGA CAC GGT GGG AGC TTC ACG GCA TTT 
Leu Ala Glu lie His Arg His Gly Gly Ser Phe Thr Ala Phe 
825 830 835 



CGG GCG 
Arg Ala 



CTC AAG 
Leu Lys 



GAA TTG 
Glu Leu 
790 

TCA GCA 
Ser Ala 
805 



GGT CGC 



CAA TTA GCT ATC GAC CAT GCA AAA CAC TTC AGT GCC TCC TCG 
Gin Leu Ala lie Asp His Ala Lys His Phe Ser Ala Ser Ser 
840 845 850 



CTT GAG 
Leu Glu 



GCT GGC GTA GCC AAA GCG CTT GAC CTC CAG GCG ACG TCG TCT 
Ala Gly Val Ala Lys Ala Leu Asp Leu Gin Ala Thr Ser Ser 
855 860 865 



CTG CGC 
870 



GAG CAG CAT CAA TTG GAG GCC AAC GAC CGT GCG CCA TTT TCT 
Glu Gin His Gin Leu Glu Ala Asn Asp Arg Ala Pro Phe Ser 



GAC TAC 



CTT CAG CAA TTC TCC CTG GCT TTC GGT CAA TCC GTC GGC GCC 
Leu Gin Gin Phe Ser Leu Ala Phe Gly Gin Ser Val Gly Ala 
890 895 900 



TCT CGT 
Ser Arg 



GCG CCC AAC CCT ACC GCG CAC CTC ATC GAT CTG ACC CCT CCT 
Ala Pro Asn Pro Thr Ala His Leu lie Asp Leu Thr Pro Pro 
905 910 915 



(2) ANGABEN ZU SEQ ID NO: 10: 
(i) SEQUENZKENNZEICHEN: 
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(A) LANGE: 545 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 10: 

Met Pro Gin Thr Leu Ala Gly Arg Leu Ser Leu Leu Ser Gly Thr Asp 
15 10 15 

Glu Leu Thr Leu Leu Leu Arg Gly Gly Arg Gly lie Glu Arg Glu Ala 
20 25 30 

Leu Arg Val Asp Val Gin Gly Glu Leu Ala Leu Thr Pro His Pro Ala 
35 40 45 

Ala Leu Gly Ser Ala Leu Thr His Pro Thr He Thr Thr Asp Tyr Ala 
50 55 60 

Glu Ala Leu Leu Glu Leu lie Thr Arg Pro Ala Thr Asp Cys Ala Gin 



Ala Leu Ala Glu Leu Glu Glu Leu His Arg Phe Val His Ser Arg Leu 
85 90 95 

Glu Gly Glu Tyr Leu Trp Asn Leu Ser Met Pro Gly Arg Leu Pro Val 
100 105 110 

Asp Glu Gin He Pro He Ala Trp Tyr Gly Pro Ser Asn Pro Gly Met 
115 120 125 

Leu Arg His Val Tyr Arg Arg Gly Leu Ala Leu Arg Tyr Gly Lys Arg 
130 135 140 

Met Gin Cys He Ala Gly He His Tyr Asn Tyr Ser Leu Pro Pro Glu 
145 150 155 160 

Leu Phe Ala Val Leu Thr Lys Ala Glu Val Gly Ser Pro Lys Leu Leu 
165 170 175 

Glu Arg Gin Ser Ala Ala Tyr Met Arg Gin He Arg Asn Leu Arg Gin 
180 185 190 

Tyr Gly Trp Leu Leu Ala Tyr Leu Phe Gly Ala Ser Pro Ala He Cys 
195 200 205 



Asp Thr Leu Tyr Met Pro Tyr Ala Thr Ser Leu Arg Met Ser Asp He 

225 230 235 240 

Gly Tyr Arg Asn Arg Ala Met Asp Asp Leu Ser Pro Ser Leu Asn Asp 

245 250 255 
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Leu Gly Ala Tyr He Arg Asp He Cys Arg Ala Leu His Thr Pro Asp 
260 265 270 

Ala Gin Tyr Gin Ala Leu Gly Val Phe Ala Gin Gly Glu Tr P Arg Gin 

275 280 285 

Leu Asn Ala Asn Leu Leu Gin Leu Asp Ser Glu Tyr Tyr Ala Leu Ala 

290 295 
Arg Pro Lys Ser Ala Pro Glu Arg Gly Glu Arg Asn Leu As P Ala Leu 
305 310 315 

Ala Arg Arg Gly Val Gin Tyr Val Glu Leu Arg Ala Leu As P Leu Asp 

325 330 
Pro Phe Ser Pro Leu Gly He Gly Leu Thr Cys Ala Lys Phe Leu Asp 

340 345 
Gly Phe Leu Leu Phe Cys Leu Leu Ser Glu Ala Pro Val Asp Asp Arg 

355 360 
Asn Ala Gin Arg Ser Arg Pro Gly Lys Ser Glu Pro Gly Arg Gin Val 

370 375 
Arg Ala Ser Pro Gly Leu Lys Leu His Arg Asn Gly Gin Ser He Leu 
385 390 395 

Leu Lys Asp Trp Ala Gin Glu Val Leu Thr Glu Val Gin Ala Cys Val 

405 410 
Glu Leu Leu Asp Ser Ala Asn Gly Gly Ser Ser His Ala Leu Ala Trp 

420 425 
Ser Ala Gin Glu Glu Lys Val Leu Asn Pro Asp Cys Ala Pro Ser Ala 

435 440 445 

Gin Val Leu Ala Glu He His Arg His Gly Gly Ser Phe Thr Ala Phe 

450 4 " 460 

Gly Arg Gin Leu Ala He Asp His Ala Lys His Phe Ser Ala Ser Ser 
465 4 ™ 475 

Leu Glu Ala Gly Val Ala Lys Ala Leu Asp Leu Gin Ala Thr Ser Ser 

Leu Arg Glu Gin His Gin Leu Glu Ala Asn Asp Arg Ala Pro Phe Ser 

500 505 
A3 p Tyr Leu Gin Gin Phe Ser Leu Ala Phe Gly Gin Ser Val Gly Ala 

515 520 
ser Arg Ala Pro Asn Pro Thr Ala His Leu He Asp Leu Thr Pro Pro 
535 540 



530 



49 



BNSDOCID' <EP 084S532A2J_> 



EP 0 845 532 A2 



545 

(2) ANGABEN ZU SEQ ID NO: 11: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 354 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Gen om-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTI SENSE : NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1.-351 

(D) SONSTIGE ANGABEN: /product= "Cytochrom C 
UE-Eugenol-Hydroxylase" 
/gene= "ehyA" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 11: 

ATG ATG AAT GTT AAT TAT AAG GCT GTC GGG GCG AGC CTA CTC CTC GCC 

Met Met Asn Val Asn Tyr Lys Ala Val Gly Ala Ser Leu Leu Leu Ala 
550 555 560 

TTC ATC TCT CAG GGA GCT TGG GCA GAG AGC CCC GCA GCC TCT GGC AAT 

Phe lie Ser Gin Gly Ala Trp Ala Glu Ser Pro Ala Ala Ser Gly Asn 
565 570 575 

ACC CCT GAC ATT TAT CGA AAG ACC TGC ACC TAC TGC CAT GAG CCT ACT 

Thr Pro Asp lie Tyr Arg Lys Thr Cys Thr Tyr Cys His Glu Pro Thr 
580 585 590 

GTC AAC AAT GGC CGG GTC ATT GCC CGA AGC CTC GGG CCG ACT CTG CGA 

Val Asn Asn Gly Arg Val lie Ala Arg Ser Leu Gly Pro Thr Leu Arg 

595 600 605 

GGG CGC CAG ATC CCT CCA CAG TAC ACG GAG TAC ATG GTG CGT CAT GGA 

Gly Arg Gin He Pro Pro Gin Tyr Thr Glu Tyr Met Val Arg His Gly 

610 615 620 625 

CGC GGG GCA ATG CCT GCA TTC TCT GAA GCA GAA GTG CCT CCG GCG GAG 

Arg Gly Ala Met Pro Ala Phe Ser Glu Ala Glu Val Pro Pro Ala Glu 
630 635 640 

CTG AAA GTT CTG GGC GAT TGG ATT CAG CAA AGC AGT GCT CCC AAA GAC 

Leu Lys Val Leu Gly Asp Trp He Gin Gin Ser Ser Ala Pro Lys Asp 
645 650 655 
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GCT GGA GTC GCG CCA TGA 
Ala Gly Val Ala Pro 
660 



(2) ANGABEN ZU SEQ ID NO: 12: 

(i) SEQUEN2KENNZEICHEN: 

(A) LANGE: 1X7 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 12: 

Met Met Asn Val Asn Tyr Lys Ala Val Gly Ala Ser Leu Leu Leu Ala 
15 10 15 

Phe lie Ser Gin Gly Ala Trp Ala Glu Ser Pro Ala Ala Ser Gly Asn 
20 25 30 

Thr Pro Asp lie Tyr Arg Lys Thr Cys Thr Tyr Cys His Glu Pro Thr 
35 40 45 

Val Asn Asn Gly Arg Val lie Ala Arg Ser Leu Gly Pro Thr Leu Arg 
50 55 60 

Gly Arg Gin lie Pro Pro Gin Tyr Thr Glu Tyr Met Val Arg His Gly 



Arg Gly Ala Met Pro Ala Phe Ser Glu Ala Glu Val Pro Pro Ala Glu 
85 90 95 

Leu Lys Val Leu Gly Asp Trp He Gin Gin Ser Ser Ala Pro Lys Asp 
100 105 110 

Ala Gly Val Ala Pro 
115 

(2> ANGABEN ZU SEQ ID NO: 13: 

!i) SEQUENZKENNZEICHEN: 

(A) LANGE: 687 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANT I SENSE : NEIN 



(ix) MERKMAL: 
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(A) NAME/SCHLUSSEL: CDS 
<B) LAGE: 1..68 4 

(D) SONSTIGE ANGABEN: /gene= "ORF5" 



(xi) S E QUENZ BES C HRE I BUNG : SEQ ID NO: 13: 

ATG ACT ACC CGT CGC AAC TTT CTA ATA GGC GCG TCG CAG GTG GGG GCA 

Met Thr Thr Arg Arg Asn Phe Leu lie Gly Ala Ser Gin Val Gly Ala 

120 125 130 

TTG GTG ATG ATG TCG CCG AAA TTG GTC TTC CGT ACG CCG CTC AAG CAG 

Leu Val Met Met Ser Pro Lys Leu Val Phe Arg Thr Pro Leu Lys Gin 

135 140 145 

AAG CCC GTG CGC ATC CTG TCG ACC GGG CTG GCC GGT GAG CAA GAG TTT 

Lys Pro Val Arg He Leu Ser Thr Gly Leu Ala Gly Glu Gin Glu Phe 

150 155 160 165 

CAC TCG ATG CTT CGC GCG CGA TTG ACC CAT ACG GGT CAG GTC GAC ATC 

His Ser Met Leu Arg Ala Arg Leu Thr His Thr Gly Gin Val Asp He 

170 175 180 

GCG TCG GTA CCG CTG GAC GCA GCT ATT TGG GCT TCT CCC GCT CGA CTT 

Ala Ser Val Pro Leu Asp Ala Ala He Trp Ala Ser Pro Ala Arg Leu 

185 190 195 

GCC CAG GCA ATG GAT GCG TTG AAT GGT ACG CGT CTG ATC GCT TTT GTT 

Ala Gin Ala Met Asp Ala Leu Asn Gly Thr Arg Leu He Ala Phe Val 

200 205 210 

GAG CCC AGG AAC GAA TTG ATA CTG ATG CAA TTC TTG ATG GAT CGC GGG 

Glu Pro Arg Asn Glu Leu He Leu Met Gin Phe Leu Met Asp Arg Gly 

215 220 225 

GCT GCG GTG CTT ATT CAA GGT GAG CAT GCG GTG GAC AGC AAG GGG GTC 

Ala Ala Val Leu He Gin Gly Glu His Ala Val Asp Ser Lys Gly Val 

230 235 240 245 

TCT CGG CAC GAC TTT CTG AGT ACC CCA TCC AGT GCG GGA ATT GGA GGG 

Ser Arg His Asp Phe Leu Ser Thr Pro Ser Ser Ala Gly He Gly Gly 

250 255 260 

GCG CTA GCC GAC AGC CTG GCA AAA GGG GGC TCG CCG TTC TCT ATT TCC 

Ala Leu Ala Asp Ser Leu Ala Lys Gly Gly Ser Pro Phe Ser He Ser 

265 270 275 

GTC CGA GCG CTT GGC TCG GTA ACT GCT CAG CCA AGA AGT AAT CAG AGT 

Val Arg Ala Leu Gly Ser Val Thr Ala Gin Pro Arg Ser Asn Gin Ser 

280 285 290 

GAG GTG GCC ACC CAC TGG ACG ACC GCT CTG GGG ACC TAT TAT GCC GAT 

Glu Val Ala Thr His Trp Thr Thr Ala Leu Gly Thr Tyr Tyr Ala Asp 

295 300 305 
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ATC GCA GTG GGG CGC TGG GAG CCG CAG CGC GAA GTG GCC AGC TAT GGA 
lie Ala Val Gly Arg Trp Glu Pro Gin Arg Glu Val Ala Ser Tyr Gly 
310 315 320 325 

AGT GGA CTA ATC ATG GCG GAA CGG CTT GAT CGT GTT GCC TCA ACC TTC 
Ser Gly Leu lie Met Ala Glu Arg Leu Asp Arg Val Ala Ser Thr Phe 
330 335 340 

ATT GCA GAT CTC TGA 
lie Ala Asp Leu 
345 



(2) ANGABEN ZU SEQ ID NO: 14: 

<i) SEQUENZKENNZEICHEN: 

(A) LANGE: 22 8 Aminosauren 

(B) ART: Aminosaure 
<D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 14: 

Met Thr Thr Arg Arg Asn Phe Leu lie Gly Ala Ser Gin Val Gly Ala 
15 10 15 

Leu Val Met Met Ser Pro Lys Leu Val Phe Arg Thr Pro Leu Lys Gin 
20 25 30 

Lys Pro Val Arg lie Leu Ser Thr Gly Leu Ala Gly Glu Gin Glu Phe 
35 40 45 

His Ser Met Leu Arg Ala Arg Leu Thr His Thr Gly Gin Val Asp lie 
50 55 60 

Ala Ser Val Pro Leu Asp Ala Ala He Trp Ala Ser Pro Ala Arg Leu 



Ala Gin Ala Met Asp Ala Leu Asn Gly Thr Arg Leu He Ala Phe Val 

85 90 95 

Glu Pro Arg Asn Glu Leu lie Leu Met Gin Phe Leu Met Asp Arg Gly 

100 105 110 

Ala Ala Val Leu lie Gin Gly Glu His Ala Val Asp Ser Lys Gly Val 

115 120 125 

Ser Arg His Asp Phe Leu Ser Thr Pro Ser Ser Ala Gly He Gly Gly 
130 135 140 

Ala Leu Ala Asp Ser Leu Ala Lys Gly Gly Ser Pro Phe Ser He Ser 

145 150 155 160 

Val Arg Ala Leu Gly Ser Val Thr Ala Gin Pro Arg Ser Asn Gin Ser 

165 170 175 
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Glu Val Ala Thr His Trp Thr Thr Ala Leu Gly Thr Tyr Tyr Ala Asp 
180 185 190 

5 lie Ala Val Gly Arg Trp Glu Pro Gin Arg Glu Val Ala Ser Tyr Gly 

195 200 205 

Ser Gly Leu lie Met Ala Glu Arg Leu Asp Arg Val Ala Ser Thr Phe 
210 215 220 

10 

lie Ala Asp Leu 

225 

(2) ANGABEN ZU SEQ ID NO: 15: 

15 (i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1554 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

20 (ii) ART DES MOLEKULS: Genom-DNA 

(iii) HYPOTHETISCH: NEIN 
<iv) ANTISENSE: NEIN 

35 

(ix) MERKMAL: 

(A) NAME/ SCHLUSSEL : CDS 

(B) LAGE:1..1551 

3Q (D) SONSTIGE ANGABEN: /product= "Flavoprotein 

UE-Eugenol -Hydroxylase" 
/gene= "ehyB" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 15: 

ATG GAA AGC ACC GTA GTT CTT CCC GAG GGT GTC ACC CCG GAG CAG TTC 
Met Glu Ser Thr Val Val Leu Pro Glu Gly Val Thr Pro Glu Gin Phe 
230 235 240 

ACC AAA GCC ATC AGC GAG TTC CGT CAG GTA TTG GGT GAG GAC AGT GTT 
Thr Lys Ala lie Ser Glu Phe Arg Gin Val Leu Gly Glu Asp Ser Val 
245 250 255 260 

CTT GTC ACT GCT GAA CGA GTT GTT CCC TAT ACG AAA CTC CTC ATT CCT 
Leu Val Thr Ala Glu Arg Val Val Pro Tyr Thr Lys Leu Leu lie Pro 
265 270 275 

ACA CAG GAT GAT GCC CAG TAC ACC CCG GCC GGT GCC TTG ACT CCT TCT 
Thr Gin Asp Asp Ala Gin Tyr Thr Pro Ala Gly Ala Leu Thr Pro Ser 
280 285 290 

TCG GTG GAG CAG GTC CAG AAA GTC ATG GGG ATC TGC AAT AAG TAC AAG 
Ser Val Glu Gin Val Gin Lys Val Met Gly lie Cys Asn Lys Tyr Lys 
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ATC CCG GTA TGG CCA ATC TCT ACC GGT CGG AAC TGG GGG TAT GGG TCC 
lie Pro Val Trp Pro lie Ser Thr Gly Arg Asn Trp Gly Tyr Gly Sec 
310 315 320 

GCT TCG CCT GCA ACT CCT GGG CAG ATG ATT CTT GAC CTT CGC AAG ATG 
Ala Ser Pro Ala Thr Pro Gly Gin Met He Leu Asp Leu Arg Lys Met 
325 330 335 340 

AAC AAG ATC ATT GAG ATC GAT GTT GAG GGG TGT ACT GCC CTG CTC GAG 
Asn Lys lie He Glu lie Asp Val Glu Gly Cys Thr Ala Leu Leu Glu 
345 350 355 

CCG GGC GTT ACC TAC CAG CAG CTT CAC GAT TAC ATC AAG GAG CAC AAT 
Pro Gly Val Thr Tyr Gin Gin Leu His Asp Tyr He Lys Glu His Asn 
360 365 370 

CTG CCC TTG ATG CTG GAT GTG CCG ACT ATT GGG CCT ATG GTT GGC CCG 
Leu Pro Leu Met Leu Asp Val Pro Thr He Gly Pro Met Val Gly Pro 
375 380 385 

GTG GGT AAC ACG CTG GAT CGA GGC GTT GGT TAT ACG CCG TAC GGC GAG 
Val Gly Asn Thr Leu Asp Arg Gly Val Gly Tyr Thr Pro Tyr Gly Glu 
390 395 400 

CAC TTC ATG ATG CAG TGT GGT ATG GAA GTC GTC ATG GCC GAT GGC GAA 
His Phe Met Met Gin Cys Gly Met Glu Val Val Met Ala Asp Gly Glu 
405 410 415 420 

ATC CTC CGT ACT GGT ATG GGC TCG GTG CCC AAA GCC AAG ACT TGG CAG 
He Leu Arg Thr Gly Met Gly Ser Val Pro Lys Ala Lys Thr Trp Gin 
425 430 435 

GCA TTC AAA TGG GGC TAT GGT CCA TAT CTG GAC GGT ATC TTT ACC CAG 

Ala Phe Lys Trp Gly Tyr Gly Pro Tyr Leu Asp Gly He Phe Thr Gin 



TCC AAC TTT GGT GTT GTG ACA AAG CTC GGG ATT TGG TTG ATG CCC AAG 

Ser Asn Phe Gly Val Val Thr Lys Leu Gly He Trp Leu Met Pro Lys 

455 460 465 

CCG CCA GTG ATC AAG TCG TTT ATG ATC CGT TAT CCC AAT GAA GCT GAT 

Pro Pro Val He Lys Ser Phe Met He Arg Tyr Pro Asn Glu Ala Asp 

470 475 480 

GTG GTT AAG GCA ATT GAT GCT TTT CGC CCG CTG CGT ATT ACT CAG CTG 

Val Val Lys Ala He Asp Ala Phe Arg Pro Leu Arg He Thr Gin Leu 

485 490 495 500 

ATT CCT AAC GTC GTT TTG TTC ATG CAC GGC ATG TAC GAA ACG GCA ATC 

He Pro Asn Val Val Leu Phe Met His Gly Met Tyr Glu Thr Ala He 

505 510 515 

TGC CGG ACG CGT GCT GAG GTT ACT TCG GAC CCA GGT CCT ATT TCT GAA 
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Cys Arg Thr Arg Ala Glu Val Thr Ser Asp Pro Gly Pro lie Ser Glu 

520 525 530 

GCG GAC GCC CGC AAA GCA TTC AAA GAG CTA GGC GTT GGC TAC TGG AAC 
Ala Asp Ala Arg Lys Ala Phe Lys Glu Leu Gly Val Gly Tyr Trp Asn 
535 540 545 

GTT TAC TTC GCG CTT TAC GGC ACA GAA GAG CAG ATA GCC GTC AAT GAA 
Val Tyr Phe Ala Leu Tyr Gly Thr Glu Glu Gin He Ala Val Asn Glu 
550 555 560 

AAG ATC GTC CGC GGC ATC CTC GAA CCG ACG GGG GGT GAG ATC CTC ACC 
Lys He Val Arg Gly He Leu Glu Pro Thr Gly Gly Glu He Leu Thr 
565 570 575 580 

GAA GAG GAG GCT GGA GAT AAC ATT CTT TTC CAT CAC CAT AAG CAG CTC 
Glu Glu Glu Ala Gly Asp Asn He Leu Phe His His His Lys Gin Leu 
585 590 595 

ATG AAC GGC GAG ATG ACA TTG GAG GAA ATG AAT ATC TAC CAG TGG CGC 
Met Asn Gly Glu Met Thr Leu Glu Glu Met Asn He Tyr Gin Trp Arg 
600 605 610 

GGA GCA GGT GGC GGT GCT TGC TGG TTT GCA CCG GTT GCT CAG GTC AAG 
Gly Ala Gly Gly Gly Ala Cys Trp Phe Ala Pro Val Ala Gin Val Lys 
615 620 625 

GGG CAT GAG GCA GAG CAG CAG GTC AAG CTT GCT CAG AAG GTG CTT GCA 
Gly His Glu Ala Glu Gin Gin Val Lys Leu Ala Gin Lys Val Leu Ala 
630 635 640 

AAG CAT GGG TTC GAT TAC ACG GCG GGC TTT GCG ATT GGT TGG CGC GAT 
Lys His Gly Phe Asp Tyr Thr Ala Gly Phe Ala He Gly Trp Arg Asp 
645 650 655 660 

CTT CAC CAT GTG ATC GAT GTG CTG TAC GAC CGT AGC AAT GCC GAC GAG 
Leu His His Val He Asp Val Leu Tyr Asp Arg Ser Asn Ala Asp Glu 
665 670 675 

AAA AAG CGC GCT TAC GCT TGC TTT GAT GAA TTG ATC GAC GTC TTT GCG 
Lys Lys Arg Ala Tyr Ala Cys Phe Asp Glu Leu He Asp Val Phe Ala 
680 685 690 

GCC GAA GGC TTT GCA AGT TAC AGG ACC AAT ATT GCC TTT ATG GAC AAA 
Ala Glu Gly Phe Ala Ser Tyr Arg Thr Asn He Ala Phe Met Asp Lys 
695 700 705 

GTC GCC TCT AAG TTC GGC GCT GAG AAT AAG AGG GTC AAT CAG AAG ATC 
Val Ala Ser Lys Phe Gly Ala Glu Asn Lys Arg Val Asn Gin Lys He 
710 715 720 

AAG GCT GCC CTT GAT CCA AAC GGC ATC ATC GCT CCC GGC AAG TCG GGC 
Lys Ala Ala Leu Asp Pro Asn Gly He He Ala Pro Gly Lys Ser Gly 
725 730 735 740 
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ATT CAT CTT CCC AAA TAA 
lie His Leu Pro Lys 
745 



(2) ANGABEN ZU SEQ ID NO: 16 



(i> SEQUENZKENNZEICHEN: 

(A) LANGE: 517 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBE SCHRE I BUNG : SEQ ID NO: 16: 

Met Glu Ser Thr Val Val Leu Pro Glu Gly Val Thr Pro Glu Gin Phe 
1 5 10 15 

Thr Lys Ala He Ser Glu Phe Arg Gin Val Leu Gly Glu Asp Ser Val 

20 25 30 

Leu Val Thr Ala Glu Arg Val Val Pro Tyr Thr Lys Leu Leu He Pro 
35 10 « 

Thr Gin Asp Asp Ala Gin Tyr Thr Pro Ala Gly Ala Leu Thr Pro Ser 

50 55 60 

Ser Val Glu Gin Val Gin Lys Val Met Gly lie Cys Asn Lys Tyr Lys 

lie Pro Val Trp Pro He Ser Thr Gly Arg Asn Trp Gly Tyr Gly Ser 
85 9° 95 

Ala ser Pro Ala Thr Pro Gly Gin Met He Leu Asp Leu Arg Lys Met 
100 HO 

Asn Lys lie He Glu lie Asp Val Glu Gly Cys Thr Ala Leu Leu Glu 
115 120 125 

Pro Gly Val Thr Tyr Gin Gin Leu His Asp Tyr He Lys Glu His Asn 



130 



135 



Leu Pro Leu Met Leu Asp Val Pro Thr He Gly Pro Met Val Gly Pro 
145 150 155 I s0 

val Gly Asn Thr Leu Asp Arg Gly Val Gly Tyr Thr Pro Tyr Gly Glu 



165 



His Phe Met Met Gin Cys Gly Met Glu Val Val Met Ala Asp Gly Glu 
185 I 90 



180 



He Leu Arg Thr Gly Met Gly Ser Val Pro Lys Ala Lys Thr Trp Gin 
200 205 



195 



Ala Phe Lys Trp Gly Tyr Gly Pro Tyr Leu Asp Gly He Phe Thr Gin 
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210 215 

Ser Asn Phe Gly Val Val Thr Lys 
225 230 

Pro Pro Val lie Lys Ser Phe Met 
245 

Val Val Lys Ala lie Asp Ala Phe 

260 

He Pro Asn Val Val Leu Phe Met 
275 280 

Cys Arg Thr Arg Ala Glu Val Thr 
290 295 

Ala Asp Ala Arg Lys Ala Phe Lys 
305 310 

Val Tyr 



Lys lie Val Arg Gly He Leu Glu 
340 



220 

Leu Gly He Trp Leu Met Pro Lys 
235 240 

lie Arg Tyr Pro Asn Glu Ala Asp 
250 255 

Arg Pro Leu Arg He Thr Gin Leu 
265 270 

His Gly Met Tyr Glu Thr Ala He 
285 

Ser Asp Pro Gly Pro He Ser Glu 
300 

Glu Leu Gly Val Gly Tyr Trp Asn 

315 320 



Pro Thr Gly Gly Glu He Leu Thr 
345 350 



Phe Ala Leu Tyr Gly Thr Glu Glu Gin He Ala Val Asn Glu 
325 330 335 



Glu Glu Glu Ala Gly Asp Asn He Leu Phe His His His Lys Gin Leu 

355 360 365 

Met Asn Gly Glu Met Thr Leu Glu Glu Met Asn He Tyr Gin Trp Arg 
370 375 380 

Gly Ala Gly Gly Gly Ala Cys Trp Phe Ala Pro Val Ala Gin Val Lys 
385 390 395 400 

Gly His Glu Ala Glu Gin Gin Val Lys Leu Ala Gin Lys Val Leu Ala 
405 410 415 

Lys His Gly Phe Asp Tyr Thr Ala Gly Phe Ala He Gly Trp Arg Asp 
420 425 430 

Leu His His Val He Asp Val Leu Tyr Asp Arg Ser Asn Ala Asp Glu 
435 440 445 

Lys Lys Arg Ala Tyr Ala Cys Phe Asp Glu Leu He Asp Val Phe Ala 
450 455 460 

Ala Glu Gly Phe Ala Ser Tyr Arg Thr Asn He Ala Phe Met Asp Lys 
465 470 475 480 

Val Ala Ser Lys Phe Gly Ala Glu Asn Lys Arg Val Asn Gin Lys He 
485 490 495 



Lys Ala Ala Leu Asp Pro Asn Gly He He Ala Pro Gly Lys Ser Gly 
500 505 510 
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lie His Leu Pro Lys 
515 



(2) ANGABEN ZU SEQ ID NO: 17: 



(i) SEQ.UENZKENNZEICHEN: 

(A) LANGE: 861 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 



(iii) HYPOTHETISCH: NEIN 



(iv) ANTISENSE : NEIN 



x) MERKMAL: 

(A) NAME/ SCHLUSSEL : CDS 

(B) LAGE: 1. .858 

(D) SONSTIGE ANGABEN: /gene= ' 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 17: 
ATG ATT GCA ATC ACT GCG GGC ACC GGA AGT CTT GGT CGG GCT ATC GTT 

Met He Ala He Thr Ala Gly Thr Gly Ser Leu Gly Arg Ala He Val 
520 525 530 

GAG CGA CTA GGG GAC TGC GGT CTT ATC GGT CAA GTT CGA TTG ACG GCT 
Glu Arg Leu Gly Asp Cys Gly Leu lie Gly Gin Val Arg Leu Thr Ala 
535 540 545 

CGC GAT CCT AAA AGG CTT CGT GCC GCT GCC GAG GAA GGG TTT CAG GTC 
Arg Asp Pro Lys Arg Leu Arg Ala Ala Ala Glu Glu Gly Phe Gin Val 
550 555 560 565 

GCT AAG GCG GAT TAC GCC GAT ATT GGG AGT CTT GAC CAG GCA TTA CAG 
Ala Lys Ala Asp Tyr Ala Asp He Gly Ser Leu Asp Gin Ala Leu Gin 
570 575 580 

GGG GTA GAC GTA TTA CTC CTG ATT TCT GGT ACT GCA CCC AAT GAA ATA 
Gly Val Asp Val Leu Leu Leu He Ser Gly Thr Ala Pro Asn Glu He 
585 590 595 

AGG ATC CAA CAG CAT AAG TCG GTC ATC GAC GCG GCA AAA CGA AAC GGC 
Arg He Gin Gin His Lys Ser Val He Asp Ala Ala Lys Arg Asn Gly 
600 605 610 

GTG TCG CGT ATT GTG TAT ACC AGC TTC ATA AAT CCA AGT ACT CGC AGC 
Val Ser Arg He Val Tyr Thr Ser Phe He Asn Pro Ser Thr Arg Ser 
615 620 625 

AGG TCT ATT TGG GCC TCC ATT CAT CGT GAA ACT GAG ACT TAC CTC AGG 
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Arg Ser He Trp Ala Ser He His Arg Glu Thr Glu Thr Tyr Leu Arg 

630 635 640 645 

CAG TCT GGG GTG AAG TTT ACG ATT GTC CGA ART AAT CAG TAT GCG TCT 

Gin Ser Gly Val Lys Phe Thr He Val Arg Asn Asn Gin Tyr Ala Ser 

650 655 660 

AAC CTG GAT CTG TTG CTG CTG AGG GCT CAA GAC AGC GGA ATA TTT GCC 

Asn Leu Asp Leu Leu Leu Leu Arg Ala Gin Asp Ser Gly He Phe Ala 

665 670 675 

ATT CCC GGG GCG AAG GGG CGG GTG GCG TAC GTC TCT CAT CGC GAC GTT 

He Pro Gly Ala Lys Gly Arg Val Ala Tyr Val Ser His Arg Asp Val 

680 685 690 

GCC GCT GCC ATC TGT AGT GTC CTG ACG ACC GCC GGA CAC GAT AAC AGG 

Ala Ala Ala He Cys Ser Val Leu Thr Thr Ala Gly His Asp Asn Arg 

695 700 705 

ATC TAC CAG CTC ACA GGC TCT GAG GCT CTC AAT GGG CTC GAG ATC GCG 

He Tyr Gin Leu Thr Gly Ser Glu Ala Leu Asn Gly Leu Glu He Ala 

710 715 720 725 

GAG ATT CTT GGT GGG GTG CTC GGG CGT CCA GTG CGC GCG ATG GAT GCC 

Glu He Leu Gly Gly Val Leu Gly Arg Pro Val Arg Ala Met Asp Ala 

730 735 740 

TCG CCT GAC GAG TTT GCT GCC AGC TTT CGC GAG GCT GGA TTC CCT GAG 

Ser Pro Asp Glu Phe Ala Ala Ser Phe Arg Glu Ala Gly Phe Pro Glu 

745 750 755 

TTT ATG GTT GAA GGC CTA CTA AGC ATT TAT GCC GCT TCA GGT GCT GGG 

Phe Met Val Glu Gly Leu Leu Ser He Tyr Ala Ala Ser Gly Ala Gly 

760 765 770 

GAG TAC CAA TCC GTC AGT CCT GAT GTT GGG TTG TTG ACG GGA CGA CGT 

Glu Tyr Gin Ser Val Ser Pro Asp Val Gly Leu Leu Thr Gly Arg Arg 

775 780 785 

GCC GAA TCG ATG CGA ACT TAC ATA CAG CGT CTA GTT TGG CCT 

Ala Glu Ser Met Arg Thr Tyr He Gin Arg Leu Val Trp Pro 

790 795 800 



(2) ANGABEN ZU SEQ ID NO: 18: 

45 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 286 Aminosauren 

(B) ART: Arainosaure 
(D) TOPOLOGIE: linear 

50 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SE<2 ID NO: 18: 
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Met lie Ala He Thr Ala Gly Thr Gly Ser Leu Gly Arg Ala He Val 
1 5 10 15 

Glu Arg Leu Gly Asp Cys Gly Leu lie Gly Gin Val Arg Leu Thr Ala 
20 25 30 

Arg Asp Pro Lys Arg Leu Arg Ala Ala Ala Glu Glu Gly Phe Gin Val 
35 40 45 

Ala Lys Ala Asp Tyr Ala Asp He Gly Ser Leu Asp Gin Ala Leu Gin 
50 55 60 

Gly Val Asp Val Leu Leu Leu He Ser Gly Thr Ala Pro Asn Glu lie 
65 70 75 

Arg lie Gin Gin His Lys Ser Val He Asp Ala Ala Lys Arg Asn Gly 
85 90 95 

val Ser Arg He Val Tyr Thr Ser Phe lie Asn Pro Ser Thr Arg Ser 
105 11° 



Arg 



Ser He Trp Ala Ser He His Arg Glu Thr Glu Thr Tyr Leu Arg 



115 120 



le Val Arg Asn Asn Gin Tyr Ala Ser 



140 



Gin Ser Gly Val Lys Phe Thr I 
130 135 

Asn Leu Asp Leu Leu Leu Leu Arg Ala Gin Asp Ser Gly He Phe Ala 
145 I 50 155 

He Pro Gly Ala Lys Gly Arg Val Ala Tyr Val Ser His Arg Asp Val 
170 I 75 



165 



Ala Ala Ala He Cys Ser Val Leu 



Thr Thr Ala Gly His Asp Asn Arg 



185 



190 



He Tyr Gin Leu Thr Gly Ser Glu Ala Leu Asn Gly Leu Glu He Ala 
195 200 205 

Glu He Leu Gly Gly Val Leu Gly Arg Pro Val Arg Ala Met Asp Ala 
210 215 220 

Ser Pro Asp Glu Phe Ala Ala Ser Phe Arg Glu Ala Gly Phe Pro Glu 

225 

Phe Met Val Glu Gly Leu Leu Ser He Tyr Ala Ala Ser Gly Ala Gly 
245 250 255 

Glu Tyr Gin Ser Val Ser Pro Asp Val Gly Leu Leu Thr Gly Arg Arg 
260 265 270 



275 2f3 
(2) ANGABEN ZU SEQ ID NO: 19: 
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(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1011 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(iX) MERKMAL: 

(A) NAME/ SCHLUSSEL : CDS 

(B) LAGE : 1 . . 1008 

(D) SONST1GE ANGABEN: /product= "Alkohol-Dehydrogei 
/gene= "adh" 



<xi) SEQUENZBESCHREIBUNG". SEQ ID NO: 19: 

ATG AAG GCT TAT GAG CTT CAC AAG ATT TCG GAA CAG GTA GAG GTC AGG 

Met Lys Ala Tyr Glu Leu His Lys lie Ser Glu Gin Val Glu Val Arg 

290 295 300 

CTC CAG CCA ACT CGG CCC CGC CCG CAG TTG AAT CAT GGC GAG GTC CTC 

Leu Gin Pro Thr Arg Pro Arg Pro Gin Leu Asn His Gly Glu Val Leu 

305 310 315 

ATC AGG GTC CAT GCA GCC TCG CTC AAC TTT CGC GAT TTG ATG ATC TTG 

lie Arg Val His Ala Ala Ser Leu Asn Phe Arg Asp Leu Met lie Leu 

320 325 330 

GCC GGT CGC TAT CCG GGT CAA ATG AAA CCC GAT GTG ATC CCG CTG TCC 

Ala Gly Arg Tyr Pro Gly Gin Met Lys Pro Asp Val lie Pro Leu Ser 

335 340 345 350 

GAT GGT GCT GGC GAG ATT GTG GAG GTC GGG CCT GGC GTA TCT TCG GAG 

Asp Gly Ala Gly Glu lie Val Glu Val Gly Pro Gly Val Ser Ser Glu 

355 360 365 

GTG CAG GGT CAG CGC GTA GCC AGC ACC TTT TTC CCT AAC TGG CGG GCC 

Val Gin Gly Gin Arg Val Ala Ser Thr Phe Phe Pro Asn Trp Arg Ala 

370 375 380 

GGA AAG ATT ACC GAG CCG GCT ATT GAG GTG TCG TTG GGC TTC GGT ATG 

Gly Lys He Thr Glu Pro Ala He Glu Val Ser Leu Gly Phe Gly Met 

385 390 395 

GAC GGG ATG CTC GCG GAA TAC GTT GCT CTG CCC TAT GAG GCA ACG ATA 

Asp Gly Met Leu Ala Glu Tyr Val Ala Leu Pro Tyr Glu Ala Thr lie 

400 405 410 

CCG ATA CCG GAG CAC CTG TCG TAC GAG GAG GCT GCA ACA TTG CCT TGC 
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Pro He Pro Glu His Leu Ser Tyr Glu Glu Ala Ala Thr Leu Pro Cys 
415 420 425 430 

GCG GCG CTA ACC GCT TGG AAT GCG TTG ACC GAA GTG GGG CGT GTC AAG 

Ala Ala Leu Thr Ala Trp Asn Ala Leu Thr Glu Val Gly Arg Val Lys 
435 440 445 

GCC GGT GAT ACG GTC TTG TTG CTT GGC ACT GGC GGT GTC TCG ATG TTC 

Ala Gly Asp Thr Val Leu Leu Leu Gly Thr Gly Gly Val Ser Met Phe 

450 455 460 

GCG TTG CAG TTC GCC AAG CTC TTG GGG GCG ACG GTC ATT CAC ACC TCG 

Ala Leu Gin Phe Ala Lys Leu Leu Gly Ala Thr Val He His Thr Ser 
465 470 475 

AGC AGT GAA CAA AAG CTG GAG AGG GTG AAA GCG ATG GGG GCT GAT CAT 

Ser Ser Glu Gin Lys Leu Glu Arg Val Lys Ala Met Gly Ala Asp His 
480 485 490 

CTG ATC AAC TAC CGC AAT TCG CCA GGG TGG GAC CGT ACT GTC CTG GAT 

Leu He Asn Tyr Arg Asn Ser Pro Gly Trp Asp Arg Thr Val Leu Asp 
495 500 505 510 

CTC ACC GCG GGG CGA GGG GTT GAC CTG GTA GTC GAG GTA GGG GGG GCG 

Leu Thr Ala Gly Arg Gly Val Asp Leu Val Val Glu Val Gly Gly Ala 
515 520 525 

GGG ACC TTG GAG CGC TCA CTT CGT GCG GTC AAG GTA GGC GGT ATT GTC 

Gly Thr Leu Glu Arg Ser Leu Arg Ala Val Lys Val Gly Gly He Val 

530 535 540 

GCC ACG ATT GGG CTA GTG GCT GGC GTT GGC CCG ATT GAC CCA TTG CCG 

Ala Thr He Gly Leu Val Ala Gly Val Gly Pro He Asp Pro Leu Pro 
545 550 555 

CTT ATC TCC AGG GCT ATT CAG CTC TCG GGC GTC TAT GTC GGT TCC CGG 

Leu He Ser Arg Ala He Gin Leu Ser Gly Val Tyr Val Gly Ser Arg 
560 565 570 

GAA ATG TTT CTC TCA ATG AAC AAA GCC ATT GCA TCA GCC GAA ATC AAG 

Glu Met Phe Leu Ser Met Asn Lys Ala He Ala Ser Ala Glu He Lys 
575 580 585 590 

CCA GTG ATC GAT TGC TGC TTC CCC ATC GAC GAG GTT GGA GAT GCT TAT 

Pro Val He Asp Cys Cys Phe Pro He Asp Glu Val Gly Asp Ala Tyr 
595 600 605 

GAG TAC ATG CGT AGC GGC AAT CAC CTT GGC AAA GTA GTT ATC ACG ATC 

Glu Tyr Met Arg Ser Gly Asn His Leu Gly Lys Val Val He Thr He 

610 615 620 



(2) ANGABEN ZU SEQ ID NO: 20: 
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(i) SEQUENZKENNZEICHEN: 

(A> LANGE: 336 Aminosauren 
(B> ART: Aminosaure 
(D> TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 20: 



Met Lys Ala Tyr Glu Leu His Lys lie Set Glu Gin Val Glu Val Arg 
15 10 15 

Leu Gin Pro Thr Arg Pro Arg Pro Gin Leu Asn His Gly Glu Val Leu 
20 25 30 

lie Arg Val His Ala Ala Ser Leu Asn Phe Arg Asp Leu Met He Leu 
35 40 45 

Ala Gly Arg Tyr Pro Gly Gin Met Lys Pro Asp Val He Pro Leu Ser 

50 55 60 

Asp Gly Ala Gly Glu lie Val Glu Val Gly Pro Gly Val Ser Ser Glu 
65 70 75 80 

Val Gin Gly Gin Arg Val Ala Ser Thr Phe Phe Pro Asn Trp Arg Ala 



85 



90 



95 



Gly Lys lie Thr Glu Pro Ala lie Glu Val Ser Leu Gly Phe Gly Met 
100 105 110 



Asp Gly Met Leu Ala Glu Tyr Val Ala Leu Pro Tyr Glu Ala Thr lie 
115 120 125 



Pro He Pro Glu His Leu Ser Tyr Glu Glu Ala Ala Thr Leu Pro Cys 
130 135 140 



Ala Ala Leu Thr Ala Trp Asn Ala Leu Thr Glu Val Gly Arg Val Lys 
145 150 155 160 



Ala Gly Asp Thr Val Leu Leu Leu Gly Thr Gly Gly Val Ser Met Phe 
165 170 175 



■ Glu Gin Lys Leu Glu Arg Val Lys Ala Met Gly Ala Asp His 
195 200 205 



Leu He Asn Tyr Arg Asn Ser Pro Gly Trp Asp Arg Thr Val Leu Asp 
210 215 220 



Leu Thr Ala Gly Arg Gly Val Asp Leu Val Val Glu Val Gly Gly Ala 
225 230 235 240 



Gly Thr Leu Glu Arg Ser Leu Arg Ala Val Lys Val Gly Gly He Val 
245 250 255 
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Ala Thr lie Gly Leu Val Ala Gly Val Gly Pro lie Asp Pro Leu Pro 
260 265 270 

Leu lie Ser Arg Ala He Gin Leu Ser Gly Val Tyr Val Gly Ser Arg 
275 280 285 

Glu Met Phe Leu Ser Met Asn Lys Ala He Ala Ser Ala Glu lie Lys 
290 295 300 

Pro Val He Asp Cys Cys Phe Pro He Asp Glu Val Gly Asp Ala Tyr 
305 310 315 320 

Glu Tyr Met Arg Ser Gly Asn His Leu Gly Lys Val Val He Thr He 
325 330 335 



(2) ANGABEN ZU SEQ ID NO: 21: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1518 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTI SENSE : NEIN 

(ix) MERKMAL: 

(A) NAME/SCHLOSSEL: CDS 

(B) LAGE : complement (4.. 1518) 
(D) SONSTIGE ANGABEN: /prodUCt= 

"Lignostilben-Dioxygenase" 
/gene= "lsd" 

<xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 21: 

TCACCGTCGT GATCGGGATT GGAAATTCGT GCGAGGACAG CGGCCACGTA CCGGCGCCCT 60 

GAAGGGCTGG AAGGTTGGAG TTTCGTTAAG GTCTGGTACC CAGCAGCCAT GGAGAGCGGC 120 

CCTTAGCCGG AATGGCAGCT TGATGGTTGC CACGGGACCA GACTGGATGT CTTGAGTGTC 180 

GAGAATTACC AGATCGCTGC GATTTTCATC GAGGCGACCA ACCACGGTCA GCAAGTACCC 2 40 

GTCACCTTCG GCGGCGGTCG GACTTCTAGG GACGAAGGCC GGCTCCTGGG CCGCCGAGGC 3 00 

TTCGCCGGAG TAC CAGAGGT CGTAGTCACC TCGGTGGTTG TCCCAGATGC CGAGTGAGTT 3 60 

GTACGCGAAT ATCTTCTCGG CCTGCTGATG CGCAAGTGGT TTGCGTGGAT CGTCCACCCC 420 
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CATAAAGCCA TAGCGGTTGC ATTGCAGGGC GAACGAAGAA TCCATGATTG GCATTTCCGC 48 0 

AAAGAAATCG TGTAGCCGGG TTCGCTTGAT CTCGTCGCTG CTGCTATCGA GGTCAATTTC 540 

CCAACGAGTC AGGCGTGGTA CGGCTTTCTC AGGGGCGAAG GGTTGGTTTT GTGAGTTGGG 600 

GAAGGGGAAC GGCAGGATTT CACTTTCCAT AAGGTCGATA TAAATCTTGG TTCCGACTTC 660 

CCAAGCATTC ACAACATGAA ATACCCAGAG CGCCGGTGCC TTGAGCCAGC GAAT CAGACT 720 

GCCCTGGCGC GGCGCGAGTA CGCCAATGTA GCTGCCCAGT TCCGGCTCCC ACATATAAAT 780 

TGGCTGTTTC GCCTTGAGGC GGGACAGGCT GTTGGTGGCC GGCATAATTG GGAAAATGGA 840 

CCAATTTCGG GTAATGGCAA AGTCGTGCAT GAATGCGCCA TAGGGCTGCT C AAAC CAAGT 900 

TTCATGTGTC ACCTTGCCGT GCTTGTCGAC AATGTAATAG GCCATGTCTG GAGTTGCTTC 960 

GCCCTTAGCT GCCGAACCGA AGAACAACAA GTCACCCGTT TCCGGGTCAT ATTTTGGATG 102 0 

GGCGGTGTGG GTTTGGCTGG TAACTTGGCC GTCGTAGTCG AAGTGTCCGC GAGTTTCAAG 108 0 

TGTACGAGGA TCCAGTTCGT ACGGTAGGCC GTCTTCCTTC ACCGCCAGCA CCTTGCCGTG 1140 

ATGGCTAATG ATGCTTGTAT TGGCAACGGT GCGGT CTAGT CCTTTTACAC TGGTGTCGTC 1200 

GGTATAGGGG TTTCTGTACA TGCCAAATAG CGATTTTCGC GCTAGTCGTT CGGCCGTGAA 1260 

TCGAGCGGTT TTAACCCAGC GACTGATGAA GTCGACATGA CCATCTTCGA AGTGGAAGGC 1320 

AGAGGCCATT CCATCTCCAT CTATGAAGGT GTGGAATTTT TGTGGGGTAA CTTGAGGCTC 1380 

TGGCGTATTA CGGTAGAACG TTCCATTTAT TGATTTTGGG ATTTCGCCGT CAACCTCTAG 1440 

AT CGAACAAG TCTGCCTCTA TACGGGTGGG GAGAAGTGTT CCTACTAATT GCGGGTCGTT 1500 

GCGGTTGAAT CTCGCCAT 1518 

(2) ANGABEN ZU SEQ ID NO: 22: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 505 Aminosauren 

(B) ART: toinosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKt/LS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 22: 

Met Ala Arg Phe Asn Arg Asn Asp Pro Gin Leu Val Gly Thr Leu Leu 
15 10 15 

Pro Thr Arg lie Glu Ala Asp Leu Phe Asp Leu Glu Val Asp Gly Glu 
20 25 30 
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lie Pro Lys Ser He Asn Gly Thr Phe Tyr Arg Asn Thr Pro Glu Pro 
35 40 45 

Gin Val Thr Pro Gin Lys Phe His Thr Phe He Asp Gly Asp Gly Met 
50 55 60 

Ala Ser Ala Phe His Phe Glu Asp Gly His Val Asp Phe He Ser Arg 

65 70 75 

Tr P Val Lys Thr Ala Arg Phe Thr Ala Glu Arg Leu Ala Arg Lys Ser 
85 90 95 

Leu Phe Gly Met Tyr Arg Asn Pro Tyr Thr Asp Asp Thr Ser Val Lys 
100 HO 

r Ser lie He Ser His His Gly 



125 



Gly Leu Asp Arg Thr Val Ala Asn Th 
115 120 

Lys Val Leu Ala Val Lys Glu Asp Gly Leu Pro Tyr Glu Leu Asp Pro 

130 135 "0 

Arg Thr Leu Glu Thr Arg Gly His Phe Asp Tyr Asp Gly Gin Val Thr 



L eu Leu Phe Phe Gly Ser Ala Ala Lys Gly Glu Ala Thr Pro Asp Met 
180 185 190 

Ala Tyr Tyr He Val Asp Lys His Gly Lys Val Thr His Glu Thr Trp 
195 200 205 

Phe Glu Gin Pro Tyr Gly Ala Phe Met His Asp Phe Ala He Thr Arg 

210 215 220 

Asn Trp Ser He Phe Pro He Met Pro Ala Thr Asn Ser Leu Ser Arg 
225 230 235 

Leu Lys Ala Lys Gin Pro He Tyr Met Trp Glu Pro Glu Leu Gly Ser 
245 250 255 

Gin Gly Ser Leu lie Arg Trp Leu 
260 265 



Tyr He Gly Val Leu Ala Pro Arg ^ . ^ 

Lys Ala Pro Ala Leu Trp Val Phe His Val Val Asn Ala Trp Glu Val 

275 280 2 

Gly Thr Lys He Tyr He Asp Leu Met Glu Ser Glu He Leu Pro Phe 

290 2 95 300 

Pro Phe Pro Asn Ser Gin Asn Gin Pro Phe Ala Pro Glu Lys Ala Val 
305 310 315 320 

Pro Arg Leu Thr Arg Trp Glu He Asp Leu Asp Ser Ser Ser Asp Glu 
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He Lys Arg Thr Arg Leu His Asp Phe Phe Ala Glu Met Pro lie Met 
340 345 350 

Asp Ser Ser Phe Ala Leu Gin Cys Asn Arg Tyr Gly Phe Met Gly Val 
355 360 365 

Asp Asp Pro Arg Lys Pro Leu Ala His Gin Gin Ala Glu Lys lie Phe 
370 375 380 

Ala Tyr Asn Ser Leu Gly lie Trp Asp Asn His Arg Gly Asp Tyr Asp 
385 390 395 400 

Leu Trp Tyr Ser Gly Glu Ala Ser Ala Ala Gin Glu Pro Ala Phe Val 
405 410 415 

Pro Arg Ser Pro Thr Ala Ala Glu Gly Asp Gly Tyr Leu Leu Thr Val 
420 425 430 

Val Gly Arg Leu Asp Glu Asn Arg Ser Asp Leu Val He Leu Asp Thr 
435 440 445 

Gin Asp He Gin Ser Gly Pro Val Ala Thr He Lys Leu Pro Phe Arg 
450 455 460 

Leu Arg Ala Ala Leu His Gly Cys Trp Val Pro Asp Leu Asn Glu Thr 
465 470 475 480 

Pro Thr Phe Gin Pro Phe Arg Ala Pro Val Arg Gly Arg Cys Pro Arg 
485 490 495 

Thr Asn Phe Gin Ser Arg Ser Arg Arg 
500 505 

(2) ANGABEN ZU SEQ ID NO: 23: 

(i) S EQUENZ KENNZE I CHEN : 

(A) LANGE: 951 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 
50 (A) NAME/ SCHLUSSEL : CDS 

(B) LAGE : 1 . .948 

(D) SONSTIGE ANGABEN: / gene= "ORF3" 
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(Xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 23: 
ATG ACA ACT ATT CGG TGG CGG CGT ATG TCC ATT CAC TCT GAG GGG ATC 

Met Thr Thr He Arg Trp Arg Axg Met Ser lie His Ser Glu Gly He 
510 515 520 

ACT CTC GCG GAT TCG CCG CTG CAT TGG GCG CAT ACC CTG AAT GGA TCA 
Thr Leu Ala Asp Ser Pro Leu His Trp Ala His Thr Leu Asn Gly Ser 
525 530 535 

ATG CGT ACT CAT TTC GAA GTC CAG CGT CTT GAG CGG GGT AGA GGT GCC 
Met Arg Thr His Phe Glu Val Gin Arg Leu Glu Arg Gly Arg Gly Ala 
540 545 550 

TCC CTT GCC CGA TCT AGA TTT GGC GCG GGT GAG CTG TAC AGT GCC ATT 
Ser Leu Ala Arg Ser Arg Phe Gly Ala Gly Glu Leu Tyr Ser Ala He 
555 560 565 

GCA CCA AGC CAG GTA CTT CGC CAC TTC AAC GAC CAG CGA AAT GCT GAT 
Ala Pro Ser Gin Val Leu Arg His Phe Asn Asp Gin Arg Asn Ala Asp 
570 575 580 585 

GAG GCT GAG CAC AGC TAT TTG ATT CAG ATA CGA AGT GGC GCT TTG GGC 
Glu Ala Glu His Ser Tyr Leu He Gin He Arg Ser Gly Ala Leu Gly 
590 595 600 

GTT GCA TCC GGC GGA AGA AAG GTG ATC TTG GCA AAT GGT GAT TGC TCC 
Val Ala Ser Gly Gly Arg Lys Val He Leu Ala Asn Gly Asp Cys Ser 
605 610 615 

ATA GTT GAT AGT CGC CAA GAC TTC ACA CTT TCC TCG AAC TCT TCG ACC 
He Val Asp Ser Arg Gin Asp Phe Thr Leu Ser Ser Asn Ser Ser Thr 
620 625 630 

CAA GGT GTC GTA ATA CGC TTT CCG GTG AGT TGG CTG GGA GCG TGG GTG 
Gin Gly Val Val lie Arg Phe Pro Val Ser Trp Leu Gly Ala Trp Val 
635 640 645 

TCC AAT CCG GAG GAT CTT ATC GCC CGA CGA GTT GAT GCT GAG GTA GGG 
Ser Asn Pro Glu Asp Leu He Ala Arg Arg Val Asp Ala Glu Val Gly 

650 655 660 665 

TGG GGT AGG GCG CTA AGC GCA TCG GTT TCT AAT CTA GAT CCA TTG CGC 
Trp Gly Arg Ala Leu Ser Ala Ser Val Ser Asn Leu Asp Pro Leu Arg 
670 675 680 

ATC GAC GAT TTA GGT AGC AAT GTA AAT GGC ATT GCA GAG CAT GTT GCT 
He Asp Asp Leu Gly Ser Asn Val Asn Gly lie Ala Glu His Val Ala 
685 690 695 

ATG TTA ATT TCA CTA GCA AGT TCT GCG GTT AGT TCT GAA GAT GGG GGT 
Met Leu He Ser Leu Ala Ser Ser Ala Val Ser Ser Glu Asp Gly Gly 
700 705 710 

GTG GCT CTT CGG AAA ATG AGG GAA GTG AAG AGA GTA CTC GAG CAG AGT 
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Val Ala Leu Arg Lys Met Arg Glu Val Lys Arg Val Leu Glu Gin Ser 
715 720 725 

TTC GCA GAC GCT AAT CTC GGG CCG GAA AGT GTT TCA AGT CAA TTA GGA 
Phe Ala Asp Ala Asn Leu Gly Pro Glu Ser Val Ser Ser Gin Leu Gly 
730 735 740 745 

ATT TCG AAA CGC TAT TTG CAT TAT GTC TTT GCT GCG TGC GGT ACG ACC 
He Ser Lys Arg Tyr Leu His Tyr Val Phe Ala Ala Cys Gly Thr Thr 
750 755 760 

TTT GGT CGC GAG CTG TTG GAA ATA CGC CTG GGC AAA GCT TAT CGA ATG 
Phe Gly Arg Glu Leu Leu Glu He Arg Leu Gly Lys Ala Tyr Arg Met 
765 770 775 

CTC TGT GCG GCG AGT GAC TCG GGT GCT GTG CTG AAG GTG GCC ATG TCC 
Leu Cys Ala Ala Ser Asp Ser Gly Ala Val Leu Lys Val Ala Met Ser 
780 785 790 

TCA GGT TTT TCG GAT TCA AGC CAT TTC AGC AAG AAA TTT AAG GAA AGA 
Ser Gly Phe Ser Asp Ser Ser His Phe Ser Lys Lys Phe Lys Glu Arg 
795 800 805 

TAC GGT GTT TCG CCT GTC TCC TTG GTG AGG CAG GCT TGA 
Tyr Gly Val Ser Pro Val Ser Leu Val Arg Gin Ala 
810 815 820 



(2) ANGABEN ZU SEQ ID NO: 24: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 316 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) S EQUENZ BES CHRE I BUNG : SEQ ID NO: 24: 

Met Thr Thr He Arg Trp Arg Arg Met Ser He His Ser Glu Gly He 
15 10 15 

Thr Leu Ala Asp Ser Pro Leu His Trp Ala His Thr Leu Asn Gly Ser 
20 25 30 

Met Arg Thr His Phe Glu Val Gin Arg Leu Glu Arg Gly Arg Gly Ala 
35 40 45 

Ser Leu Ala Arg Ser Arg Phe Gly Ala Gly Glu Leu Tyr Ser Ala He 
50 55 60 

Ala Pro Ser Gin Val Leu Arg His Phe Asn Asp Gin Arg Asn Ala Asp 
65 70 75 80 

Glu Ala Glu His Ser Tyr Leu He Gin He Arg Ser Gly Ala Leu Gly 
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val Ala Ser Gly Gly Arc, Lys Val He Leu Ala Asn Gly Asp Cys Ser 
100 105 110 

He Val Asp Ser Arg Gin Asp Phe Thr Leu Ser Ser Asn Ser Ser Thr 
115 120 125 

Gin Gly val Val He Arg Phe Pro Val Ser Trp Leu Gly Ala Trp Val 
130 135 110 

ser Asn Pro Glu Asp Leu He Ala Arg Arg Val Asp Ala Glu Val Gly 
145 150 1" 160 

Trp Gly Arg Ala Leu Ser Ala Ser Val Ser Asn Leu Asp Pro Leu Arg 
165 "0 1" 

lie Asp Asp Leu Gly Ser Asn Val Asn Gly He Ala Glu His Val Ala 
180 185 190 

Met Leu lie Ser Leu Ala Ser Ser Ala Val Ser Ser Glu Asp Gly Gly 
195 200 205 

val Ala Leu Arg Lys Met Arg Glu Val Lys Arg Val Leu Glu Gin Ser 
210 215 220 

Phe Ala Asp Ala Asn Leu Gly Pro Glu Ser Val Ser Ser Gin Leu Gly 
225 230 235 

He Ser Lys Arg Tyr Leu His Tyr Val Phe Ala Ala Cys Gly Thr Thr 

Phe Gly Arg Glu Leu Leu Glu lie Arg Leu Gly Lys Ala Tyr Arg Met 
260 265 270 

Leu Cys Ala Ala Ser Asp Ser Gly Ala Val Leu Lys Val Ala Met Ser 
275 280 285 

ser Gly Phe Ser Asp Ser Ser His Phe Ser Lys Lys Phe Lys Glu Arg 
290 295 300 

Tyr Gly Val Ser Pro Val Ser Leu Val Arg Gin Ala 
305 310 3i5 

(2) ANGABEN ZU SEQ ID NO: 25: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 735 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
[iV) ANTISENSE: NEIN 
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(ix) MERKMAL: 

(A) NAME/ SCHLUSSEL : CDS 

(B) LAGE:1..7 32 

5 (D) SONSTIGE ANGABEN : /product= "Enoyl-CoA-Hydratase" 

/gene= "ech" 



(xi) S EQUENZ BE S CHRE I BUNG : SEQ ID NO: 25: 

ATG AGC CCA ACT CTC AAT CGA GAG ATG GTC GAG GTT CTG GAG GTG CTG 
Met Ser Pro Thr Leu Asn Arg Glu Met Val Glu Val Leu Glu Val Leu 
320 325 330 

GAG CAG GAC GCA GAT GCT CGC GTG CTT GTT CTG ACT GGT GCA GGC GAA 
Glu Gin Asp Ala Asp Ala Arg Val Leu Val Leu Thr Gly Ala Gly Glu 
335 340 345 

TCC TGG ACC GCG GGC ATG GAC CTG AAG GAG TAT TTC CGC GAG ACC GAT 
Ser Trp Thr Ala Gly Met Asp Leu Lys Glu Tyr Phe Arg Glu Thr Asp 
350 355 360 

GCT GGC CCC GAA ATT CTG CAA GAG AAG ATT CGT CGC GAA GCG TCG ACC 
Ala Gly Pro Glu lie Leu Gin Glu Lys lie Arg Arg Glu Ala Ser Thr 

365 370 375 380 

TGG CAG TGG AAG CTC CTG CGG ATG TAC ACC AAG CCG ACC ATC GCG ATG 
Trp Gin Trp Lys Leu Leu Arg Met Tyr Thr Lys Pro Thr He Ala Met 
385 390 395 

GTC AAT GGC TGG TGC TTC GGC GGC GGC TTC AGC CCG CTG GTG GCC TGT 
Val Asn Gly Trp Cys Phe Gly Gly Gly Phe Ser Pro Leu Val Ala Cys 
400 405 410 

GAT CTG GCC ATC TGT GCC GAC GAG GCC ACC TTT GGC CTG TCC GAG ATC 
Asp Leu Ala He Cys Ala Asp Glu Ala Thr Phe Gly Leu Ser Glu He 
415 420 425 

AAC TGG GGC ATC CCG CCG GGC AAC CTG GTG AGT AAG GCT ATG GCC GAC 
Asn Trp Gly lie Pro Pro Gly Asn Leu Val Ser Lys Ala Met Ala Asp 
430 435 440 

ACC GTG GGT CAC CGC GAG TCC CTT TAC TAC ATC ATG ACT GGC AAG ACA 
Thr Val Gly His Arg Glu Ser Leu Tyr Tyr He Met Thr Gly Lys Thr 



TTT GGC GGT CAG CAG GCC GCC AAG ATG GGG CTT GTG AAC CAG AGT GTT 

Phe Gly Gly Gin Gin Ala Ala Lys Met Gly Leu Val Asn Gin Ser Val 
465 470 475 

CCG CTG GCC GAG CTG CGC AGT GTC ACT GTA GAG CTG GCT CAG AAC CTG 

Pro Leu Ala Glu Leu Arg Ser Val Thr Val Glu Leu Ala Gin Asn Leu 

480 485 490 

CTG GAC AAG AAC CCC GTA GTG CTG CGT GCC GCC AAA ATA GGC TTC AAG 
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Leu Asp Lys Asn Pro Val Val Leu Arg Ala Ala Lys lie Gly Phe Lys 
495 500 505 

CGT TGC CGC GAG CTG ACT TGG GAG CAG AAC GAG GAC TAC CTG TAC GCC 
Arg Cys Arg Glu Leu Thr Trp Glu Gin Asn Glu Asp Tyr Leu Tyr Ala 
510 515 520 

AAG CTC GAC CAA TCC CGT TTG CTC GAT CCG GAA GGC GGT CGC GAG CAG 
Lys Leu Asp Gin Ser Arg Leu Leu Asp Pro Glu Gly Gly Arg Glu Gin 
525 530 535 540 

GGC ATG AAG CAG TTC CTT GAC GAG AAA AGC ATC AAG CCG GGC TTG CAG 
Gly Met Lys Gin Phe Leu Asp Glu Lys Ser lie Lys Pro Gly Leu Gin 
545 550 555 

ACC TAC AAG CGC TGA 

Thr Tyr Lys Arg 
560 



(2) ANGABEN ZU SEQ ID NO: 26: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 244 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 26: 

Met Ser Pro Thr Leu Asn Arg Glu Met Val Glu Val Leu Glu Val Leu 
15 10 15 

Glu Gin Asp Ala Asp Ala Arg Val Leu Val Leu Thr Gly Ala Gly Glu 
20 25 30 

Ser Trp Thr Ala Gly Met Asp Leu Lys Glu Tyr Phe Arg Glu Thr Asp 
35 40 45 

Ala Gly Pro Glu He Leu Gin Glu Lys He Arg Arg Glu Ala Ser Thr 
50 55 60 

Trp Gin Trp Lys Leu Leu Arg Met Tyr Thr Lys Pro Thr lie Ala Met 



Val Asn Gly Trp Cys Phe Gly Gly Gly Phe Ser Pro Leu Val Ala Cys 
85 90 95 

Asp Leu Ala He Cys Ala Asp Glu Ala Thr Phe Gly Leu Ser Glu He 
100 105 110 

Asn Trp Gly He Pro Pro Gly Asn Leu Val Ser Lys Ala Met Ala Asp 
115 120 125 

Thr Val Gly His Arg Glu Ser Leu Tyr Tyr He Met Thr Gly Lys Thr 
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Phe Gly Gly Gin Gin Ala Ala Lys Met Gly Leu Val Asn Gin Ser Val 
145 150 155 160 



Pro Leu Ala Glu Leu Arg Ser Val Thr Val Glu Leu Ala Gin Asn Leu 
165 170 175 



Leu Asp Lys Asn Pro Val Val Leu Arg Ala Ala Lys lie Gly Phe Lys 
180 185 190 



Arg Cys Arg Glu Leu Thr Trp Glu Gin Asn Glu Asp Tyr Leu Tyr Ala 
195 200 205 



Lys Leu Asp Gin Ser Arg Leu Leu Asp Pro Glu Gly Gly Arg Glu Gin 
210 215 220 



Gly Met Lys Gin Phe Leu Asp Glu Lys Ser lie Lys Pro Gly Leu Gin 
225 230 235 240 



Thr Tyr Lys Arg 



(2) ANGABEN ZU SEQ ID NO: 27: 

(i> SEQUENZKENNZEICHEN: 

(A) LANGE: 1446 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM : Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 



(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..1443 

(D) SONSTIGE ANGABEN: /product= "Vanillin-Dehydrogenase " 
/gene= "vdh" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 27: 

ATG TTT CAC GTG CCC CTG CTT ATT GGT GGT AAG CCT TGT TCA GCA TCT 

Met Phe His Val Pro Leu Leu lie Gly Gly Lys Pro Cys Ser Ala Ser 

245 250 255 260 

GAT GAG CGC ACC TTC GAG CGT CGT AGC CCG CTG ACC GGA GAA GTG GTA 

Asp Glu Arg Thr Phe Glu Arg Arg Ser Pro Leu Thr Gly Glu Val Val 

265 270 275 
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TCG CGC GTC GCT GCT GCC AGT TTG GAA GAT GCG GAC GCC GCA GTG GCC 
Ser Arg Val Ala Ala Ala Ser Leu Glu Asp Ala Asp Ala Ala Val Ala 
280 285 290 

GCT GCA CAG GCT GCG TTT CCT GAA TGG GCG GCG CTT GCT CCG AGC GAA 
Ala Ala Gin Ala Ala Phe Pro Glu Trp Ala Ala Leu Ala Pro Ser Glu 
295 300 305 

CGC CGT GCC CGA CTG CTG CGA GCG GCG GAT CTT CTA GAG GAC CGT TCT 
Arg Arg Ala Arg Leu Leu Arg Ala Ala Asp Leu Leu Glu Asp Arg Ser 
310 315 320 

TCC GAG TTC ACC GCC GCA GCG AGT GAA ACT GGC GCA GCG GGA AAC TGG 
Ser Glu Phe Thr Ala Ala Ala Ser Glu Thr Gly Ala Ala Gly Asn Trp 
325 330 335 340 

TAT GGG TTT AAC GTT TAC CTG GCG GCG GGC ATG TTG CGG GAA GCC GCG 
Tyr Gly Phe Asn Val Tyr Leu Ala Ala Gly Met Leu Arg Glu Ala Ala 
345 350 355 

GCC ATG ACC ACA CAG ATT CAG GGC GAT GTC ATT CCG TCC AAT GTG CCC 
Ala Met Thr Thr Gin lie Gin Gly Asp Val lie Pro Ser Asn Val Pro 
360 365 370 

GGT AGC TTT GCC ATG GCG GTT CGA CAG CCA TGT GGC GTG GTG CTC GGT 
Gly Ser Phe Ala Met Ala Val Arg Gin Pro Cys Gly Val Val Leu Gly 
375 380 385 

ATT GCG CCT TGG AAT GCT CCG GTA ATC CTT GGC GTA CGG GCT GTT GCG 
He Ala Pro Trp Asn Ala Pro Val He Leu Gly Val Arg Ala Val Ala 
390 395 400 

ATG CCG TTG GCA TGC GGC AAT ACC GTG GTG TTG AAA AGC TCT GAG CTG 
Met Pro Leu Ala Cys Gly Asn Thr Val Val Leu Lys Ser Ser Glu Leu 
405 410 415 420 

AGT CCC TTT ACC CAT CGC CTG ATT GGT CAG GTG TTG CAT GAT GCT GGT 

Ser Pro Phe Thr His Arg Leu He Gly Gin Val Leu His Asp Ala Gly 
425 430 435 

CTG GGG GAT GGC GTG GTG AAT GTC ATC AGC AAT GCC CCG CAA GAC GCT 
Leu Gly Asp Gly Val Val Asn Val He Ser Asn Ala Pro Gin Asp Ala 
440 445 450 

CCT GCG GTG GTG GAG CGA CTG ATT GCA AAT CCT GCG GTA CGT CGA GTG 
Pro Ala Val Val Glu Arg Leu He Ala Asn Pro Ala Val Arg Arg Val 
455 460 465 

AAC TTC ACC GGT TCG ACC CAC GTT GGA CGG ATC ATT GGT GAG CTG TCT 
Asn Phe Thr Gly Ser Thr His Val Gly Arg He He Gly Glu Leu Ser 
470 475 480 

GCG CGT CAT CTG AAG CCT GCT GTG CTG GAA TTA GGT GGT AAG GCT CCG 
Ala Arg His Leu Lys Pro Ala Val Leu Glu Leu Gly Gly Lys Ala Pro 
485 490 495 500 
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TTC TTG GTC TTG GAC GAT GCC GAC CTC GAT GCG GCG GTC GAA GCG GCG 

Phe Leu Val Leu Asp Asp Ala Asp Leu Asp Ala Ala Val Glu Ala Ala 

505 510 515 

GCC TTT GGT GCC TAC TTC AAT CAG GGT CAA ATC TGC ATG TCC ACT GAG 

Ala Phe Gly Ala Tyr Phe Asn Gin Gly Gin He Cys Met Ser Thr Glu 

520 525 530 

CGT CTG ATT GTG ACA GCA GTC GCA GAC GCC TTT GTT GAA AAG CTG GCG 

Arg Leu lie Val Thr Ala Val Ala Asp Ala Phe Val Glu Lys Leu Ala 
535 540 545 

AGG AAG GTC GCC ACA CTG CGT GCT GGC GAT CCT AAT GAT CCG CAA TCG 

Arg Lys Val Ala Thr Leu Arg Ala Gly Asp Pro Asn Asp Pro Gin Ser 
550 555 560 

GTC TTG GGT TCG TTG ATT GAT GCC AAT GCA GGT CAA CGC ATC CAG GTT 

Val Leu Gly Ser Leu lie Asp Ala Asn Ala Gly Gin Arg lie Gin Val 

565 570 575 580 

CTG GTC GAT GAT GCG CTC GCA AAA GGC GCG CGG CAG GTC GTC GGT GGT 

Leu Val Asp Asp Ala Leu Ala Lys Gly Ala Arg Gin Val Val Gly Gly 

585 590 595 

GGC TTA GAT GGC AGC ATC ATG CAG CCG ATG CTG CTT GAT CAG GTC ACT 

Gly Leu Asp Gly Ser lie Met Gin Pro Met Leu Leu Asp Gin Val Thr 

600 605 610 

GAA GAG ATG CGG CTC TAC CGT GAG GAG TCC TTT GGC CCT GTT GCC GTT 

Glu Glu Met Arg Leu Tyr Arg Glu Glu Ser Phe Gly Pro Val Ala Val 
615 620 625 

GTC TTG CGC GGC GAT GGT GAT GAA GAA CTG CTG CGT CTT GCC AAC GAT 

Val Leu Arg Gly Asp Gly Asp Glu Glu Leu Leu Arg Leu Ala Asn Asp 
630 635 640 

TCG GAG TTT GGT CTT TCG GCC GCC ATT TTC AGC CGT GAC GTC TCG CGC 

Ser Glu Phe Gly Leu Ser Ala Ala lie Phe Ser Arg Asp Val Ser Arg 

645 650 655 660 

GCA ATG GAA TTG GCC CAG CGC GTC GAT TCG GGC ATT TGC CAT ATC AAT 

Ala Met Glu Leu Ala Gin Arg Val Asp Ser Gly lie Cys His lie Asn 

665 670 675 

GGA CCG ACT GTG CAT GAC GAG GCT CAG ATG CCA TTC GGT GGG GTG AAG 

Gly Pro Thr Val His Asp Glu Ala Gin Met Pro Phe Gly Gly Val Lys 

680 685 690 

TCC AGC GGC TAC GGC AGC TTC GGC AGT CGA GCA TCG ATT GAG CAC TTT 

Ser Ser Gly Tyr Gly Ser Phe Gly Ser Arg Ala Ser He Glu His Phe 
695 700 705 

ACC CAG CTG CGC TGG CTG ACC ATT CAG AAT GGC CCG CGG CAC TAT CCA 

Thr Gin Leu Arg Trp Leu Thr He Gin Asn Gly Pro Arg His Tyr Pro 
710 715 720 
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ATC TAA 

lie 

725 

(2) ANGABEN ZU SEQ ID NO: 28: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 481 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 26: 

Met Phe His val Pro Leu Leu He Gly Gly Lys Pro Cys ser Ala Ser 

! 5 10 15 

Asp Glu Arg Thr Phe Glu Arg Are, Ser Pro Leu Thr Gly Glu Val Val 

20 25 
Ser Arg Val Ala Ala Ala Ser Leu Glu Asp Ala Asp Ala Ala Val Ala 
35 10 «5 

Ala Ala Gin Ala Ala Phe Pro Glu Trp Ala Ala Leu Ala Pro Ser Glu 

50 " 60 

Arg Arg Ala Arg Leu Leu Arg Ala Ala Asp Leu Leu Glu As P Arg Ser 

65 70 75 

Ser Glu Phe Thr Ala Ala Ala Ser Glu Thr Gly Ala Ala Gly Asn Trp 

85 90 95 

Tyr Gly Phe Asn Val Tyr Leu Ala Ala Gly Met Leu Arg Glu Ala Ala 

7 ioo 10 5 H° 

Ala Met Thr Thr Gin He Gin Gly Asp Val He Pro Ser Asn Val Pro 
115 120 125 

Gly ser Phe Ala Met Ala Val Arg Gin Pro Cys Gly Val Val Leu Gly 
135 140 



lie Ala Pro Trp Asn Ala Pro Val He Leu Gly Val Arg Ala Val Ala 
145 150 155 

Met Pro Leu Ala Cys Gly Asn Thr Val Val Leu Lys Ser Ser Glu Leu 
165 170 

Ser Pro Phe Thr His Arg Leu He Gly Gin Val Leu His Asp Ala Gly 

180 18 5 I 90 

L eu Gly Asp Gly Val Val Asn Val He Ser Asn Ala Pro Gin Asp Ala 

195 200 
Pro Ala val Val Glu Arg Leu He Ala Asn Pro Ala Val Arg Arg Val 
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Asn Phe Thr Gly Ser Thr His Val Gly Arg lie lie Gly Glu Leu Ser 
225 230 235 240 

Ala Arg His Leu Lys Pro Ala Val Leu Glu Leu Gly Gly Lys Ala Pro 
245 250 255 

Phe Leu Val Leu Asp Asp Ala Asp Leu Asp Ala Ala Val Glu Ala Ala 
260 265 270 

Ala Phe Gly Ala Tyr Phe Asn Gin Gly Gin lie Cys Met Ser Thr Glu 
275 280 285 



Arg Lys Val Ala Thr Leu Arg Ala Gly Asp Pro Asn Asp Pro Gin Ser 
305 310 315 320 

Val Leu Gly Ser Leu lie Asp Ala Asn Ala Gly Gin Arg He Gin Val 
325 330 335 

Leu Val Asp Asp Ala Leu Ala Lys Gly Ala Arg Gin Val Val Gly Gly 
340 345 350 

Gly Leu Asp Gly Ser He Met Gin Pro Met Leu Leu Asp Gin Val Thr 
355 360 365 

Glu Glu Met Arg Leu Tyr Arg Glu Glu Ser Phe Gly Pro Val Ala Val 
370 375 380 

Val Leu Arg Gly Asp Gly Asp Glu Glu Leu Leu Arg Leu Ala Asn Asp 
385 390 395 400 

Ser Glu Phe Gly Leu Ser Ala Ala He Phe Ser Arg Asp Val Ser Arg 
405 410 415 

Ala Met Glu Leu Ala Gin Arg Val Asp Ser Gly He Cys His He Asn 
420 425 430 

Gly Pro Thr Val His Asp Glu Ala Gin Met Pro Phe Gly Gly Val Lys 



Ser Ser Gly Tyr Gly Ser Phe Gly Ser Arg Ala Ser He Glu His Phe 
450 455 460 

Thr Gin Leu Arg Trp Leu Thr He Gin Asn Gly Pro Arg His Tyr Pro 

465 470 475 480 



(2) ANGABEN ZU SEQ ID NO: 29: 
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(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1770 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..1767 

(D) SONSTIGE ANGABEN : /product= 

"Ferulasaeure-CoA-Synthetase" 
/gene= "fcs" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 29: 



ATG CGT TCT CTC GAG GCG CTT CTT CCC TTC CCG GGT CGA ATT CTT GAG 

Met Arg Ser Leu Glu Ala Leu Leu Pro £>he Pro Gly Arg lie Leu Glu 
485 490 495 

CGT CTC GAG CAT TGG GCT AAG ACC CGT CCA GAA CAA ACC TGC GTT GCT 

Arg Leu Glu His Trp Ala Lys Thr Arg Pro Glu Gin Thr Cys Val Ala 
500 505 510 

GCC AGG GCG GCA AAT GGG GAA TGG CGT CGT ATC AGC TAC GCG GAA ATG 

Ala Arg Ala Ala Asn Gly Glu Trp Arg Arg lie Ser Tyr Ala Glu Met 
515 520 525 

TTC CAC AAC GTC CGC GCC ATC GCA CAG AGC TTG CTT CCT TAC GGA CTA 

Phe His Asn Val Arg Ala lie Ala Gin Ser Leu Leu Pro Tyr Gly Leu 
530 535 540 545 

TCG GCA GAG CGT CCG CTG CTT ATC GTC TCT GGA AAT GAC CTG GAA CAT 

Ser Ala Glu Arg Pro Leu Leu lie Val Ser Gly Asn Asp Leu Glu His 

550 555 560 

CTT CAG CTG GCA TTT GGG GCT ATG TAT GCG GGC ATT CCC TAT TGC CCG 

Leu Gin Leu Ala Phe Gly Ala Met Tyr Ala Gly lie Pro Tyr Cys Pro 
565 570 575 

GTG TCT CCT GCT TAT TCA CTG CTG TCG CAA GAT TTG GCG AAG CTG CGT 

Val Ser Pro Ala Tyr Ser Leu Leu Ser Gin Asp Leu Ala Lys Leu Arg 
580 585 590 

CAC ATC GTA GGT CTT CTG CAA CCG GGA CTG GTC TTT GCT GCC GAT GCA 

His lie Val Gly Leu Leu Gin Pro Gly Leu Val Phe Ala Ala Asp Ala 
595 600 605 
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GCA CCT TTC CAG CGC GCA ATT GAG ACC ATT CTG CCG GAC GAC GTG CCC 
Ala Pro Phe Gin Arg Ala He Glu Thr He Leu Pro Asp Asp Val Pro 
610 615 €20 625 

GCA ATC TTC ACT CGA GGC GAA TTG GCC GGG CGG CGC ACG GTG AGT TTT 
Ala He Phe Thr Arg Gly Glu Leu Ala Gly Arg Arg Thr Val Ser Phe 
630 635 640 

GAC AGC CTG CTG GAG CAG CCT GGT GGG ATT GAG GCA GAT AAT GCC TTT 
Asp Ser Leu Leu Glu Gin Pro Gly Gly He Glu Ala Asp Asn Ala Phe 
645 650 655 

GCG GCA ACT GGC CCC GAT ACG ATT GCC AAG TTC TTG TTC ACT TCT GGC 
Ala Ala Thr Gly Pro Asp Thr He Ala Lys Phe Leu Phe Thr Ser Gly 

660 665 670 

TCT ACC AAA CTG CCT AAG GCG GTG CCG ACT ACT CAG CGA ATG CTC TGC 
Ser Thr Lys Leu Pro Lys Ala Val Pro Thr Thr Gin Arg Met Leu Cys 
675 680 685 

GCC AAT CAG CAG ATG CTT CTG CAA ACT TTC CCG GTT TTT GGT GAA GAG 
Ala Asn Gin Gin Met Leu Leu Gin Thr Phe Pro Val Phe Gly Glu Glu 
690 695 700 705 

CCG CCG GTG CTG GTG GAC TGG TTG CCG TGG AAC CAC ACC TTC GGC GGC 
Pro Pro Val Leu Val Asp Trp Leu Pro Trp Asn His Thr Phe Gly Gly 
710 715 720 

AGC CAC AAC ATC GGC ATC GTG TTG TAC AAC GGC GGC ACG TAC TAC CTT 
Ser His Asn He Gly He Val Leu Tyr Asn Gly Gly Thr Tyr Tyr Leu 
725 730 735 

GAC GAC GGT AAA CCA ACC GCC CAA GGG TTC GCC GAG ACG CTT CGC AAC 
Asp Asp Gly Lys Pro Thr Ala Gin Gly Phe Ala Glu Thr Leu Arg Asn 
740 745 750 

TTG AGC GAA ATC TCT CCC ACT GCG TAC CTC ACT GTG CCG AAA GGC TGG 
Leu Ser Glu He Ser Pro Thr Ala Tyr Leu Thr Val Pro Lys Gly Trp 
755 760 765 

GAG GAA TTA GTG GGT GCC CTT GAG CGA GAC AGT ACC CTG CGC GAA CGC 
Glu Glu Leu Val Gly Ala Leu Glu Arg Asp Ser Thr Leu Arg Glu Arg 
770 775 780 785 

TTC TTC GCT CGC ATG AAG CTG TTC TTC TTC GCG GCG GCT GGG TTG TCG 
Phe Phe Ala Arg Met Lys Leu Phe Phe Phe Ala Ala Ala Gly Leu Ser 
790 795 800 

CAA GGG ATC TGG GAT CGT TTG GAC CGG GTC GCT GAA CAG CAC TGT GGT 
Gin Gly He Trp Asp Arg Leu Asp Arg Val Ala Glu Gin His Cys Gly 
805 810 815 

GAG CGC ATT CGC ATG ATG GCG GGT CTG GGC ATG ACG GAG ACT GCT CCT 
Glu Arg He Arg Met Met Ala Gly Leu Gly Met Thr Glu Thr Ala Pro 
820 825 830 
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TCC TGC ACT TTT ACC ACC GGA CCG CTG TCG ATG GCT GGT TAC ATT GGG 

Ser Cys Thr Phe Thr Thr Gly Pro Leu Ser Met Ala Gly Tyr lie Gly 

835 840 845 

CTG CCA GCG CCT GGC TGC GAG GTC AAG CTC GTT CCG GTC GAT GGG AAA 

Leu Pro Ala Pro Gly Cys Glu Val Lys Leu Val Pro Val Asp Gly Lys 
850 855 860 865 

TTG GAA GGG CGT TTC CAT GGT CCG CAC GTC ATG AGC GGC TAC TGG CGT 

Leu Glu Gly Arg Phe His Gly Pro His Val Met Ser Gly Tyr Trp Arg 
870 875 880 

GCT CCT GAA CAA AAT GCC CAA GCG TTC GAC GAG GAA GGC TAT TAC TGC 

Ala Pro Glu Gin Asn Ala Gin Ala Phe Asp Glu Glu Gly Tyr Tyr Cys 
885 890 895 

TCC GGT GAT GCC ATC AAA TTG GCA GAT CCT GCC GAT CCT CAG AAA GGT 

Ser Gly Asp Ala lie Lys Leu Ala Asp Pro Ala Asp Pro Gin Lys Gly 
900 . 905 910 

CTG ATG TTT GAC GGT CGA ATT GCT GAA GAC TTC AAG CTG TCC TCA GGG 

Leu Met Phe Asp Gly Arg lie Ala Glu Asp Phe Lys Leu Ser Ser Gly 

915 920 925 

GTA TTT GTC AGC GTT GGG CCA TTG CGC ACG CGG GCG GTT CTG GAA GGC 

Val Phe Val Ser Val Gly Pro Leu Arg Thr Arg Ala Val Leu Glu Gly 
930 935 940 945 

GGC TCT TAC GTC CTG GAC GTA GTG GTT GCT GCT CCT GAT CGT GAA TGC 

Gly Ser Tyr Val Leu Asp Val Val Val Ala Ala Pro Asp Arg Glu Cys 
950 955 960 

CTT GGA TTG CTC GTG TTT CCG CGT CTT CTC GAC TGC CGT GCC TTG TCG 

Leu Gly Leu Leu Val Phe Pro Arg Leu Leu Asp Cys Arg Ala Leu Ser 
965 970 975 

GGG CTA GGA AAA GAG GCG TCG GAC GCC GAG GTG CTT GCC AGT GAG CCG 

Gly Leu Gly Lys Glu Ala Ser Asp Ala Glu Val Leu Ala Ser Glu Pro 
980 985 990 

GTT CGG GCC TGG TTT GCT GAC TGG CTC AAA CGA CTC AAT CGA GAA GCA 

Val Arg Ala Trp Phe Ala Asp Trp Leu Lys Arg Leu Asn Arg Glu Ala 

995 1000 1005 

ACT GGC AAT GCC AGT CGC ATC ATG TGG GTA GGG CTC CTC GAT ACG CCG 

Thr Gly Asn Ala Ser Arg lie Met Trp Val Gly Leu Leu Asp Thr Pro 
1010 1015 1020 1025 

CCG TCG ATT GAT AAG GGC GAG GTC ACT GAC AAG GGC TCG ATC AAC CAG 

Pro Ser He Asp Lys Gly Glu Val Thr Asp Lys Gly Ser lie Asn Gin 
1030 1035 1040 

CGC GCT GTT TTG CAA TGG CGG TCG GCG AAA GTT GAT GCG CTG TAT CGT 

Arg Ala Val Leu Gin Trp Arg Ser Ala Lys Val Asp Ala Leu Tyr Arg 
1045 1050 1055 
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GGT GAA GAT CAA TCC ATG CTG CGT GAC GAG GCC ACA CTG TGA 
Gly Glu Asp Gin Ser Met Leu Arg Asp Glu Ala Thr Leu 
1060 1065 1070 



(2) ANGABEN ZU SEQ ID NO: 30: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 58 9 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 30: 

Met Arg Ser Leu Glu Ala Leu Leu Pro Phe Pro Gly Arg lie Leu Glu 
15 10 15 

Arg Leu Glu His Trp Ala Lys Thr Arg Pro Glu Gin Thr Cys Val Ala 
20 25 30 

Ala Arg Ala Ala Asn Gly Glu Trp Arg Arg lie Ser Tyr Ala Glu Met 
35 40 45 

Phe His Asn Val Arg Ala lie Ala Gin Ser Leu Leu Pro Tyr Gly Leu 
50 55 60 

Ser Ala Glu Arg Pro Leu Leu He Val Ser Gly Asn Asp Leu Glu His 



Leu Gin Leu Ala Phe Gly Ala Met Tyr Ala Gly He Pro Tyr Cys Pro 
85 90 95 

Val Ser Pro Ala Tyr Ser Leu Leu Ser Gin Asp Leu Ala Lys Leu Arg 
100 105 110 

His He Val Gly Leu Leu Gin Pro Gly Leu Val Phe Ala Ala Asp Ala 
115 120 125 

Ala Pro Phe Gin Arg Ala He Glu Thr He Leu Pro Asp Asp Val Pro 
130 135 140 

Ala He Phe Thr Arg Gly Glu Leu Ala Gly Arg Arg Thr Val Ser Phe 
145 150 155 160 

Asp Ser Leu Leu Glu Gin Pro Gly Gly He Glu Ala Asp Asn Ala Phe 
165 170 175 

Ala Ala Thr Gly Pro Asp Thr He Ala Lys Phe Leu Phe Thr Ser Gly 
180 185 190 



Ala Asn Gin Gin Met Leu Leu Gin Thr Phe Pro Val Phe Gly Glu Glu 
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Pro Pro Val Leu Val Asp Trp Leu Pro Trp Asn His Thr Phe Gly Gly 
225 230 235 

ser His Asn He Gly He Val Leu Tyr Asn Gly Gly Thr Tyr Tyr Leu 



245 



Asp Asp Gly Lys Pro Thr Ala Gin Gly Phe Ala Glu Thr Leu Arg Asn 



260 



Leu Ser Glu He Ser Pro Thr Ala Tyr Leu Thr Val Pro Lys Gly Trp 
280 285 



275 



Glu Glu Leu Val Gly Ala Leu Glu Arg Asp Ser Thr Leu Arg Glu Arg 



295 



Phe Phe Ala Arg Met Lys Leu Phe Phe Phe Ala Ala Ala Gly Leu Ser 
305 310 315 

Gin Gly lie Tr P Asp Arg Leu As P Arg V.l Ala Glu Gin His Cys Gly 

Glu Arg lie Arg Met Met Ala Gly Leu Gly Met Thr Glu Thr Ala Pro 

340 345 
Ser Cys Thr Phe Thr Thr Gly Pro Leu Ser Met Ala Gly Tyr lie Gly 

355 360 
Leu Pro Ala Pro Gly Cys Glu Val Lys Leu Val Pro Val Asp Gly Lys 



370 



375 



Leu Glu Gly Arg Phe His Gly Pro His Val Met Ser Gly Tyr Trp Arg 
385 3 *° 395 

Al. Pro Glu Gin Asn Ala Gin Ala Phe Asp Glu Glu Gly Tyr Tyr Cys 



405 



ser Gly Asp Ala He Lys Leu Ala Asp Pro Ala Asp Pro Gin Lys Gly 



420 



Leu Met Phe Asp Gly Arg He Ala Glu Asp Phe Lys Leu Ser Ser Gly 

435 440 445 

val Phe Val Ser Val Gly Pro Leu Arg Thr Arg Ala Val Leu Glu Gly 

450 455 
Giy ser Tyr Val Leu Asp Val Val Val Ala Ala Pro Asp Arg Glu cys 
465 470 475 

Leu Gly Leu Leu v.l Phe Pro Arg Leu Leu Asp Cys Arg Ala Leu Ser 
485 490 

— i qer AsD Ala Glu Val Leu Ala Ser Glu Pro 

Gly Leu Gly Lys Glu Ala Ser Asp /\xa 



500 
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Val Arg Ala Trp Phe Ala Asp Trp Leu Lys Arg Leu Asn Arg Glu Ala 
515 520 525 

Thr Gly Asn Ala Ser Arg lie Met Trp Val Gly Leu Leu Asp Thr Pro 
530 535 540 

Pro Ser He Asp Lys Gly Glu Val Thr Asp Lys Gly Ser He Asn Gin 
545 550 555 560 

Arg Ala Val Leu Gin Trp Arg Ser Ala Lys Val Asp Ala Leu Tyr Arg 
565 570 575 

Gly Glu Asp Gin Ser Met Leu Arg Asp Glu Ala Thr Leu 
580 585 

(2) ANGABEN ZU SEQ ID NO: 31: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1296 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Genom-DNA 
(iii) HYPOTHETISCH : NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..1293 

(D) SONSTIGE ANGABEN: /product= "beta-Ketothiolase" 
/gene= "aat" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 31: 

ATG AGT TGG TCA GGG GGG GCT TAC TCG GCG TTT TCC GAC ACT GCG TTG 

Met Ser Trp Ser Gly Gly Ala Tyr Ser Ala Phe Ser Asp Thr Ala Leu 

590 595 600 605 

GTT GCG GCA GTG CGC ACC CCC TGG ATT GAT TGC GGG GGT GCC CTG TCG 

Val Ala Ala Val Arg Thr Pro Trp He Asp Cys Gly Gly Ala Leu Ser 

610 615 620 

CTG GTG TCG CCT ATC GAC TTA GGG GTA AAG GTC GCT CGC GAA GTT CTG 

Leu Val Ser Pro He Asp Leu Gly Val Lys Val Ala Arg Glu Val Leu 

625 630 635 

ATG CGT GCG TCG CTT GAA CCA CAA ATG GTC GAT AGC GTA CTC GCA GGC 

Met Arg Ala Ser Leu Glu Pro Gin Met Val Asp Ser Val Leu Ala Gly 

640 645 650 
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TCT ATG GCT CAA GCA AGC TTT GAT GCT TAC CTG CTC CCG CGG CAC ATT 
Ser Met Ala Gin Ala Ser Phe Asp Ala Tyr Leu Leu Pro Arg His He 
655 660 665 

GGC TTG TAC AGC GGT GTT CCC AAG TCG GTT CCG GCC TTG GGG GTG CAG 
Gly Leu Tyr Ser Gly Val Pro Lys Ser Val Pro Ala Leu Gly Val Gin 
670 675 680 685 

CGC ATT TGC GGC ACA GGC TTC GAA CTG CTT CGG CAG GCC GGC GAG CAG 
Arg He Cys Gly Thr Gly Phe Glu Leu Leu Arg Gin Ala Gly Glu Gin 
690 695 700 

ATT TCC CAA GGC GCT GAT CAC GTG CTG TGT GTC GCG GCA GAG TCC ATG 
He Ser Gin Gly Ala Asp His Val Leu Cys Val Ala Ala Glu Ser Met 
705 710 715 

TCG CGT AAC CCC ATC GCG TCG TAT ACA CAC CGG GGC GGG TTC CGC CTC 
Ser Arg Asn Pro He Ala Ser Tyr Thr His Arg Gly Gly Phe Arg Leu 
720 725 730 

GGT GCG CCC GTT GAG TTC AAG GAT TTT TTG TGG GAG GCA TTG TTT GAT 
Gly Ala Pro Val Glu Phe Lys Asp Phe Leu Trp Glu Ala Leu Phe Asp 
735 740 745 

CCT GCT CCA GGA CTC GAC ATG ATC GCT ACC GCA GAA AAC CTG GCG CGC 
Pro Ala Pro Gly Leu Asp Met He Ala Thr Ala Glu Asn Leu Ala Arg 
750 755 760 765 

CTG TAC GGA ATC ACC AGG GGA GAA GCT AAT TCC TAC GCG GTA AGC AGC 
Leu Tyr Gly He Thr Arg Gly Glu Ala Asn Ser Tyr Ala Val Ser Ser 
770 775 780 

TTC GAG CGC GCA TTG AGG GCG CAA GAG GAG AAA TGG ATT GAC CAA GAG 
Phe Glu Arg Ala Leu Arg Ala Gin Glu Glu Lys Trp He Asp Gin Glu 
785 790 795 

ATC GTG GCT GTT ACG GAT GAA CAG TTC GAT TTA GAG GGC TAC AAC AGT 
He Val Ala Val Thr Asp Glu Gin Phe Asp Leu Glu Gly Tyr Asn Ser 
800 805 810 

CGA GCA ATT GAA CTG CCT CGG AAG GCA AAA TTG TTG ATC GTG ACA GTC 
Arg Ala He Glu Leu Pro Arg Lys Ala Lys Leu Leu He Val Thr Val 



ATC CGC GGC CTA GCA GTC TTT GAA GCC CTT TCC CGA TTG AAG CCT GTT 

He Arg Gly Leu Ala Val Phe Glu Ala Leu Ser Arg Leu Lys Pro Val 

830 835 840 845 

CAT TCT GGC GGG GTG CAG ACT GCG GGC AAC AGC TGT GCC GTA GTG GAC 

His Ser Gly Gly Val Gin Thr Ala Gly Asn Ser Cys Ala Val Val Asp 



GGC GCC GCG GCG GCT TTG GTG GCT CGA GAG TCG TCT GCG ACA CAG CCG 
Gly Ala Ala Ala Ala Leu Val Ala Arg Glu Ser Ser Ala Thr Gin Pro 
865 870 875 



55 
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GTC TTG GCT AGG ATA CTG GCT ACC TCC GTA GTC GGG ATC GAG CCC GAG 
Val Leu Ala Arg He Leu Ala Thr Ser Val Val Gly He Glu Pro Glu 
880 885 890 

CAT ATG GGG CTC GGC CCT GCG CCC GCG ATT CGC CTG CTG CTT GCG CGT 
His Met Gly Leu Gly Pro Ala Pro Ala He Arg Leu Leu Leu Ala Arg 
895 900 905 

AGT GAT CTT AGT TTG AGG GAT ATC GAC CTC TTT GAG ATA AAC GAG GCG 
Ser Asp Leu Ser Leu Arg Asp He Asp Leu Phe Glu He Asn Glu Ala 
910 915 920 925 

CAG GCC GCC CAA GTT CTA GCG GTA CAG CAT GAA TTG GGT ATT GAG CAC 
Gin Ala Ala Gin Val Leu Ala Val Gin His Glu Leu Gly He Glu His 
930 935 940 

TCA AAA CTT AAT ATT TGG GGC GGG GCC ATT GCA CTT GGA CAC CCG CTT 
Ser Lys Leu Asn He Trp Gly Gly Ala He Ala Leu Gly His Pro Leu 
945 950 955 

GCC GCG ACC GGA TTG CGT CTC TGC ATG ACC CTC GCT CAC CAA TTG CAA 
Ala Ala Thr Gly Leu Arg Leu Cys Met Thr Leu Ala His Gin Leu Gin 
960 965 970 

GCT AAT AAC TTT CGA TAT GGA ATT GCC TCG GCA TGC ATT GGT GGG GGA 
Ala Asn Asn Phe Arg Tyr Gly He Ala Ser Ala Cys He Gly Gly Gly 
975 980 985 

CAG GGG ATG GCG GTT CTT TTA GAG AAT CCC CAC TTC GGT TCG TCC TCT 

Gin Gly Met Ala Val Leu Leu Glu Asn Pro His Phe Gly Ser Ser Ser 
990 995 1000 1005 

GCA CGA AGT TCG ATG ATT AAC AGA GTT GAC CAC TAT CCA CTG AGC 
Ala Arg Ser Ser Met He Asn Arg Val Asp His Tyr Pro Leu Ser 
1010 1015 1020 



(2) ANGABEN ZU SEQ ID NO: 32: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE : 431 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 32: 

Met Ser Trp Ser Gly Gly Ala Tyr Ser Ala Phe Ser Asp Thr Ala Leu 



Val Ala Ala Val Arg Thr Pro Trp He Asp Cys Gly Gly Ala Leu Ser 
20 25 30 
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Leu Val Ser Pro He Asp Leu Gly Val Lys Val Ala Arg Glu Val Leu 

35 40 « 

Met Arg Ala Ser Leu Glu Pro Gin Met Val Asp Ser Val Leu Ala Gly 

50 55 60 

Ser Met Ala Gin Ala Ser Phe Asp Ala Tyr Leu Leu Pro Arg His lie 

65 10 75 

Gly Leu Tyr Ser Gly Val Pro Lys Ser Val Pro Ala Leu Gly Val Gin 

Arg He Cys Gly Thr Gly Phe Glu Leu Leu Arg Gin Ala Gly Glu Gin 

100 105 
lie Ser Gin Gly Ala Asp His Val Leu Cys Val Ala Ala Glu Ser Met 
115 120 125 

Ser Arg Asn Pro He Ala Ser Tyr Thr His Arg Gly Gly Phe Arg Leu 

130 135 I 40 

Gly Ala Pro Val Glu Phe Lys Asp Phe Leu Trp Glu Ala Leu Phe Asp 
145 150 155 

Pro Ala Pro Gly Leu Asp Met He Ala Thr Ala Glu Asn Leu Ala Arg 

165 170 175 

Leu Tyr Gly He Thr Arg Gly Glu Ala Asn Ser Tyr Ala Val Ser Ser 
180 185 

Phe Glu Arg Ala Leu Arg Ala Gin Glu Glu Lys Trp He Asp Gin Glu 
195 200 205 

He Val Ala Val Thr Asp Glu Gin Phe Asp Leu Glu Gly Tyr Asn Ser 



215 



Arg Ala He Glu Leu Pro Arg Lys Ala Lys Leu Leu He Val Thr Val 



225 



230 



lie Arg Gly Leu Ala Val Phe Glu Ala Leu Ser Arg Leu Lys Pro Val 

245 250 
His Ser Gly Gly Val Gin Thr Ala Gly Asn Ser Cys Ala Val Val Asp 
260 

Gly Ala Ala Ala Ala 1 
275 

Val Leu Ala Arg : 

290 zv:} 

His Met Gly Leu Gly Pro Ala Pro Ala He Arg Leu Leu Leu Ala Arg 
305 310 315 

Ser Asp Leu Ser Leu Arg Asp He Asp Leu Phe Glu lie Asn Glu Ala 



Leu Val Ala Arg Glu Ser Ser Ala Thr Gin Pro 



He Leu Ala Thr Ser Val Val Gly lie Glu Pro Glu 



87 
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Gin Ala Ala Gin Val Leu Ala Val Gin His Glu Leu Gly lie Glu His 
340 345 350 

Ser Lys Leu Asn lie Trp Gly Gly Ala lie Ala Leu Gly His Pro Leu 
355 360 365 

Ala Ala Thr Gly Leu Arg Leu Cys Met Thr Leu Ala His Gin Leu Gin 
370 375 380 

Ala Asn Asn Phe Arg Tyr Gly He Ala Ser Ala Cys He Gly Gly Gly 
385 390 395 400 

Gin Gly Met Ala Val Leu Leu Glu Asn Pro His Phe Gly Ser Ser Ser 
405 410 415 



(2) ANGABEN ZU SEQ ID NO: 33: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1596 Basenpaare 

(B) ART: Nucleotid 

<C) STRANGFORM: Doppelstrang 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 

(iii) HYPOTHETISCH: NEIN 

(iv) ANT I SENSE : NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..1593 

(D) SONSTIGE ANGABEN: /product= "Chemotaxis-Protein" 
/gene= "mac" 



(sci) SEQUENZBESCHREIBUNG: SEQ ID NO: 33: 

ATG ATT AGT TTC GCT CGT ATG GCA GAA AGT TTA GGA GTC CAG GCT AAA 
Met He Ser Phe Ala Arg Met Ala Glu Ser Leu Gly Val Gin Ala Lys 
435 440 445 

CTT GCC CTT GCC TTC GCA CTC GTA TTA TGT GTC GGG CTG ATT GTT ACC 
Leu Ala Leu Ala Phe Ala Leu Val Leu Cys Val Gly Leu He Val Thr 
450 455 460 

GGC ACG GGT TTC TAC AGT GTA CAT ACC TTG TCA GGG TTG GTG GAA AAG 
Gly Thr Gly Phe Tyr Ser Val His Thr Leu Ser Gly Leu Val Glu Lys 
465 470 475 
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AGC GCG ATA GCT GGT GAG TTG CGG GCG AAA ATT CAG GAA CTG AAG GTT 

Ser Ala He Ala Gly Glu Leu Arg Ala Lys He Gin Glu Leu Lys Val 

480 485 490 495 

CTG GAG CAG CGC GCC TTA TTC ATC GCC GAT GAA GGG TCG CTG AAG CAG 

Leu Glu Gin Arg Ala Leu Phe He Ala Asp Glu Gly Ser Leu Lys Gin 

500 505 510 

CGC TCG ATC CTC CTA AGT CAG GTG ATA GCT GAA GTT AAT GAT GCT ATA 

Arg Ser He Leu Leu Ser Gin Val He Ala Glu Val Asn Asp Ala He 

515 520 525 

GAT ATT TTT GAC TTT CAG CGC GGA CGA TCT GAG TTA CTT AAA TTC GCT 

Asp lie Phe Asp Phe Gin Arg Gly Arg Ser Glu Leu Leu Lys Phe Ala 

530 535 540 

GCT TCT TCG CGC GAA GCA AGT TAC TCC ATT GAG GTC GGT AGT AAC GCT 

Ala ser Ser Arg Glu Ala Ser Tyr Ser He Glu Val Gly Ser Asn Ala 

545 550 555 

GCG GCC GAT AAG TTG CAG TCG GGC GAA CCA AGT GAC GCA TTG ATG GTT 

Ala Ala Asp Lys Leu Gin Ser Gly Glu Pro Ser Asp Ala Leu Met Val 

560 565 570 575 

GCC GAT AAA AAG CTG AAT GTT GAG TAT GAG CAA TTG AGT TCT GCT GTG 

Ala Asp Lys Lys Leu Asn Val Glu Tyr Glu Gin Leu Ser Ser Ala Val 

580 585 590 

AAT GCA CTG ATG GGG CAT TTA ATT GAG GAT CAG AAT GAA AAA GTT CCA 

Asn Ala Leu Met Gly His Leu He Glu Asp Gin Asn Glu Lys Val Pro 

595 600 605 

CTA ATC TAC TAT ATG CTT GGC GGC GTA ACT TTG TTT ACG ATG CTC ATG 

Leu He Tyr Tyr Met Leu Gly Gly Val Thr Leu Phe Thr Met Leu Met 

610 615 620 

AGT GCT TAT TCG GTC TGG TTC ATT TCG CGT CAG TTA GTT CCG CCA TTA 

Ser Ala Tyr Ser Val Trp Phe He Ser Arg Gin Leu Val Pro Pro Leu 

625 630 635 

AAG TCG ACG GTG CAG CTT GCC GAG CGG ATT GCA TCA GGC GAC TTG GCT 

Lys Ser Thr Val Gin Leu Ala Glu Arg He Ala Ser Gly Asp Leu Ala 



GAT GTC GGG GAC AGC AGG CGC AAG GAT GAA ATC GGT CAG TTG CAA AGT 

Asp Val Gly Asp Ser Arg Arg Lys Asp Glu He Gly Gin Leu Gin Ser 
660 665 670 

GCA ACT AGG CGG ATG GCG ATT GGA CTG CGT AAT CTG GTC GGT GAT ATT 

Ala Thr Arg Arg Met Ala He Gly Leu Arg Asn Leu Val Gly Asp He 

675 680 685 

GGT CAA AGT CGT GCG CAA CTG GTT TCA TCG TCC AGC GAC CTT TCG GCC 

Gly Gin Ser Arg Ala Gin Leu Val Ser Ser Ser Ser Asp Leu Ser Ala 
690 695 700 



55 
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ATC TGT GCT CAG GCT CAG ATT GAT GTC GAG TGC CAG AAG CTT TCG GTC 
lie Cys Ala Gin Ala Gin lie Asp Val Glu Cys Gin Lys Leu Ser Val 
705 710 715 

GCC CAG GTC TCT ACC GCC GTG AAC GAG TTG GTT GAA ACC GTC CAG GCA 
Ala Gin Val Ser Thr Ala Val Asn Glu Leu Val Glu Thr Val Gin Ala 
720 725 730 735 

ATA GCA AAA AGC ACC GAA GAG GCA GCA ACA GTC GCC GTC TTG GCC GAT 
lie Ala Lys Ser Thr Glu Glu Ala Ala Thr Val Ala Val Leu Ala Asp 
740 745 750 

GAA AAG GCA CGC GGT GGT GAA AGT GTC GTT AAC AAG GCC GTT GAT TTC 
Glu Lys Ala Arg Gly Gly Glu Ser Val Val Asn Lys Ala Val Asp Phe 
755 760 765 

ATT GAG CAC CTC TCC GGA GAT ATG GCG GAA CTG GGA GAC GCA ATG GAG 
He Glu His Leu Ser Gly Asp Met Ala Glu Leu Gly Asp Ala Met Glu 
770 775 780 

CGG CTT CAG AAC GAC AGT GCG CAG ATC AAT AAG GTA GTA GAC GTC ATT 
Arg Leu Gin Asn Asp Ser Ala Gin lie Asn Lys Val Val Asp Val He 
785 790 795 

AAG GCT GTG GCG GAG CAG ACC AAT CTG CTA GCC CTG AAT GCG GCG ATA 
Lys Ala Val Ala Glu Gin Thr Asn Leu Leu Ala Leu Asn Ala Ala lie 
800 805 810 815 

GAG GCG GCC CGT GCA GGA GAG CAG GGC AGG GGC TTT GCG GTC GTG GCG 
Glu Ala Ala Arg Ala Gly Glu Gin Gly Arg Gly Phe Ala Val Val Ala 
820 825 830 

GAT GAG GTT CGT GCT TTG GCG ATG CGC ACC CAA CAA TCG ACC AAA GAA 
Asp Glu Val Arg Ala Leu Ala Met Arg Thr Gin Gin Ser Thr Lys Glu 
835 840 845 

ATT GAG AGG CTA GTG GTT TCA TTG CAG CAG GGA AGT GAA GCT GCG GGC 
He Glu Arg Leu Val Val Ser Leu Gin Gin Gly Ser Glu Ala Ala Gly 
850 855 860 

GAG TTG ATG CGG CGT GGC AAG GTC CGG ACG CAT GAC GTC GTT GGA TTG 
Glu Leu Met Arg Arg Gly Lys Val Arg Thr His Asp Val Val Gly Leu 
865 870 875 

GCC CAG CAA GCC GCG CGC CGC GCT ACT CGA AAT TAC CCA GCT GTC GCC 

Ala Gin Gin Ala Ala Arg Arg Ala Thr Arg Asn Tyr Pro Ala Val Ala 



GGC ATC CAA GCG ATG AAC TAT CAG ATC GCC GCT GGA GCA GAG CAG CAA 
Gly He Gin Ala Met Asn Tyr Gin He Ala Ala Gly Ala Glu Gin Gin 
900 905 910 

GGG GCT GCT GTG GTT CAA ATC AAC CAG AAT ATG CTT GAA GTG CAT AAG 
Gly Ala Ala Val Val Gin He Asn Gin Asn Met Leu Glu Val His Lys 
915 920 925 
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ATG GCT GAC GAG TCC GCC ATT AAA GCG GGA CAG ACC ATG AAG TCA TCG 
Met Ala Asp Glu Ser Ala lie Lys Ala Gly Gin Thr Met Lys Ser Set 



AAG GAG CTT GCT CAC CTC GGC AGT GCG CTA CAA AAA TCC GTT GAT CGA 
Lys Glu Leu Ala His Leu Gly Ser Ala Leu Gin Lys Ser Val Asp Arg 
945 950 955 

TTC CAG CTG TAG 
Phe Gin Leu 
960 



(2) ANGABEN ZU SEQ ID NO: 34: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 531 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 34: 

Met lie Ser Phe Ala Arg Met Ala Glu Ser Leu Gly Val Gin Ala Lys 
15 10 15 

Leu Ala Leu Ala Phe Ala Leu Val Leu Cys Val Gly Leu lie Val Thr 
20 25 30 

Gly Thr Gly Phe Tyr Ser Val His Thr Leu Ser Gly Leu Val Glu Lys 
35 40 45 

Ser Ala lie Ala Gly Glu Leu Arg Ala Lys lie Gin Glu Leu Lys Val 
50 55 60 

Leu Glu Gin Arg Ala Leu Phe He Ala Asp Glu Gly Ser Leu Lys Gin 



Arg Ser He Leu Leu Ser Gin Val lie Ala Glu Val Asn Asp Ala lie 

85 90 95 

Asp He Phe Asp Phe Gin Arg Gly Arg Ser Glu Leu Leu Lys Phe Ala 

100 105 110 

Ala Ser Ser Arg Glu Ala Ser Tyr Ser He Glu Val Gly Ser Asn Ala 

115 120 125 

Ala Ala Asp Lys Leu Gin Ser Gly Glu Pro Ser Asp Ala Leu Met Val 

130 135 140 

Ala Asp Lys Lys Leu Asn Val Glu Tyr Glu Gin Leu Ser Ser Ala Val 

145 150 155 160 

Asn Ala Leu Met Gly His Leu He Glu Asp Gin Asn Glu Lys Val Pro 

165 170 175 
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Leu lie Tyr Tyr Met 
180 

Ser Ala Tyr Ser Val 
195 

Lys Ser Thr Val Gin 
210 

Asp Val Gly Asp Ser 

225 

Ala Thr Arg Arg Met 
245 

Gly Gin Ser Arg Ala 

260 

lie Cys Ala Gin Ala 
275 

Ala Gin Val Ser Thr 
290 

He Ala Lys Ser Thr 
305 

Glu Lys Ala Arg Gly 
325 

He Glu His Leu Ser 
340 

Arg Leu Gin Asn Asp 
355 

Lys Ala Val Ala Glu 
370 

Glu Ala Ala Arg Ala 

385 

Asp Glu Val Arg Ala 
405 

He Glu Arg Leu Val 
420 

Glu Leu Met Arg Arg 
435 

Ala Gin Gin Ala Ala 
450 

Gly He Gin Ala Met 



Leu Gly Gly Val Thr 
185 

Trp Phe He Ser Arg 
200 

Leu Ala Glu Arg He 
215 

Arg Arg Lys Asp Glu 
230 

Ala He Gly Leu Arg 
250 

Gin Leu Val Ser Ser 
265 

Gin He Asp Val Glu 
280 

Ala Val Asn Glu Leu 
295 

Glu Glu Ala Ala Thr 
310 

Gly Glu Ser Val Val 
330 

Gly Asp Met Ala Glu 
345 

Ser Ala Gin He Asn 
360 

Gin Thr Asn Leu Leu 
375 

Gly Glu Gin Gly Arg 
390 

Leu Ala Met Arg Thr 
410 

Val Ser Leu Gin Gin 
425 

Gly Lys Val Arg Thr 
440 

Arg Arg Ala Thr Arg 
455 

Asn Tyr Gin He Ala 



Leu Phe Thr Met Leu Met 
190 

Gin Leu Val Pro Pro Leu 

205 

Ala Ser Gly Asp Leu Ala 

220 

He Gly Gin Leu Gin Ser 
235 240 

Asn Leu Val Gly Asp He 
255 

Ser Ser Asp Leu Ser Ala 
270 

Cys Gin Lys Leu Ser Val 
285 

Val Glu Thr Val Gin Ala 
300 

Val Ala Val Leu Ala Asp 
315 320 

Asn Lys Ala Val Asp Phe 
335 

Leu Gly Asp Ala Met Glu 

350 

Lys Val Val Asp Val He 
365 

Ala Leu Asn Ala Ala He 
380 

Gly Phe Ala Val Val Ala 
395 400 

Gin Gin Ser Thr Lys Glu 
415 

Gly Ser Glu Ala Ala Gly 
430 

His Asp Val Val Gly Leu 
445 

Asn Tyr Pro Ala Val Ala 
460 

Ala Gly Ala Glu Gin Gin 
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Gly Ala Ala Val Val Gin lie Asn Gin Asn Met Leu Glu Val His Lys 
485 490 495 

Met Ala Asp Glu Ser Ala lie Lys Ala Gly Gin Thr Met Lys Ser Ser 
500 505 510 

Lys Glu Leu Ala His Leu Gly Ser Ala Leu Gin Lys Ser Val Asp Arg 
515 520 525 

Phe Gin Leu 
530 

(2) ANGABEN ZU SEQ ID NO: 35: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 411 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



x) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE : complement (4.. 4 11) 
(D) SONSTIGE ANGABEN: /product= 

"Transkript ions- Regulator- Pro te. 
/gene= "trp" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 35: 

CTAGCCTAAC TGTTGCGCTT CAGGCTCCGC ATGGATCTTG TGCAGCAGCA ATAGCAATTG 60 

TTCACGTTCG T CAT C ACT C A GCATCGACGT CGCGTCTTGG TCGCTCTGTA CCACGATCTT 120 

CTTCAGCTCT TTGAGCTGCG TCTCCCCAGC TTTGCTGAGA AATATCCCAT AGGAACGCTT 18 0 

GTCCGGCTTG CAGCGCACGC GCACAGCAAG GCCGAGCTTC TCGAGCTTGT TCAGCAAGGG 2 40 

AACCAGTTGT GGTGGTTCGA TTGCGAGCAT CCGCGCTAGG TCAGCCTGCA TAAGCCCAGG 3 00 

GCTCGCTTCG ATGATTAGAA GTGCCGACAG CTGCGCCGGG CGTAGGTCAT ATGGCGTCAG 3 60 

GGCTTCAATC AGGCCCTGAG CGAGCTTCAG CTGTGAGCCG GCGTAAGGCA T 411 

(2) ANGABEN ZU SEQ ID NO: 36: 
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(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 136 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 36: 

Met Pro Tyr Ala Gly Ser Gin Leu Lys Leu Ala Gin Gly Leu lie Glu 
15 10 15 

Ala Leu Thr Pro Tyr Asp Leu Arg Pro Ala Gin Leu Ser Ala Leu Leu 
20 25 30 

He lie Glu Ala Ser Pro Gly Leu Met Gin Ala Asp Leu Ala Arg Met 
35 40 45 

Leu Ala He Glu Pro Pro Gin Leu Val Pro Leu Leu Asn Lys Leu Glu 
50 55 60 

Lys Leu Gly Leu Ala Val Arg Val Arg Cys Lys Pro Asp Lys Arg Ser 



Tyr Gly lie Phe Leu Ser Lys Ala Gly Glu Thr Gin Leu Lys Glu Leu 
85 90 95 

Lys Lys lie Val Val Gin Ser Asp Gin Asp Ala Thr Ser Met Leu Ser 
100 105 110 

Asp Asp Glu Arg Glu Gin Leu Leu Leu Leu Leu His Lys He His Ala 
115 120 125 

Glu Pro Glu Ala Gin Gin Leu Gly 
130 135 

(2) ANGABEN ZU SEQ ID NO: 37: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1446 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(iX) MERKMAL : 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE:1..1443 

(D) SONSTIGE ANGABEN: /product= 

"Conif erylaldehyd- Dehydrogenase " 
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/gene= "caldh" 



(Xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 37: 

ATG AGC ATT CTT GGT TTG AAT GGT GCC CCG GTC GGA GCT GAG CAG CTG 
Met Ser He Leu Gly Leu Asn Gly Ala Pro Val Gly Ala Glu Gin Leu 
140 145 150 

GGC TCG GCT CTT GAT CGC ATG AAG AAG GCG CAC CTG GAG CAG GGG CCT 
Gly Ser Ala Leu Asp Arg Met Lys Lys Ala His Leu Glu Gin Gly Pro 
155 160 165 

GCA AAC TTG GAG CTG CGT CTG AGT AGG CTG GAT CGT GCG ATT GCA ATG 
Ala Asn Leu Glu Leu Arg Leu Ser Arg Leu Asp Arg Ala lie Ala Met 
170 175 180 

CTT CTG GAA AAT CGT GAA GCA ATT GCC GAC GCG GTT TCT GCT GAC TTT 
Leu Leu Glu Asn Arg Glu Ala He Ala Asp Ala Val Ser Ala Asp Phe 
185 190 195 200 

GGC AAT CGC AGC CGT GAG CAA ACA CTG CTT TGC GAC ATT GCT GGC TCG 
Gly Asn Arg Ser Arg Glu Gin Thr Leu Leu Cys Asp He Ala Gly Ser 
205 210 215 

GTG GCA AGC CTG AAG GAT AGC CGC GAG CAC GTG GCC AAA TGG ATG GAG 
Val Ala Ser Leu Lys Asp Ser Arg Glu His Val Ala Lys Trp Met Glu 

220 225 230 

CCC GAA CAT CAC AAG GCG ATG TTT CCA GGG GCG GAG GCA CGC GTT GAG 
Pro Glu His His Lys Ala Met Phe Pro Gly Ala Glu Ala Arg Val Glu 
235 240 245 

TTT CAG CCG CTG GGT GTC GTT GGG GTC ATT AGT CCC TGG AAC TTC CCT 
Phe Gin Pro Leu Gly Val Val Gly Val lie Ser Pro Trp Asn Phe Pro 
250 255 260 

ATC GTA CTG GCC TTT GGG CCG CTG GCC GGC ATA TTC GCA GCA GGT AAT 
lie Val Leu Ala Phe Gly Pro Leu Ala Gly He Phe Ala Ala Gly Asn 
265 270 275 280 

CGC GCC ATG CTC AAG CCG TCC GAG CTT ACC CCG CGG ACT TCT GCC CTG 
Arg Ala Met Leu Lys Pro Ser Glu Leu Thr Pro Arg Thr Ser Ala Leu 
285 290 295 

CTT GCG GAG CTA ATT GCT CGT TAC TTC GAT GAA ACT GAG CTG ACT ACA 
Leu Ala Glu Leu He Ala Arg Tyr Phe Asp Glu Thr Glu Leu Thr Thr 
300 305 310 

GTG CTG GGC GAC GCT GAA GTC GGT GCG CTG TTC AGT GCT CAG CCT TTC 
Val Leu Gly Asp Ala Glu Val Gly Ala Leu Phe Ser Ala Gin Pro Phe 
315 320 325 

GAT CAT CTG ATC TTC ACC GGC GGC ACT GCC GTG GCC AAG CAC ATC ATG 
Asp His Leu He Phe Thr Gly Gly Thr Ala Val Ala Lys His He Met 
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CGT GCC GCG GCG GAT AAC CTA GTG CCC GTT ACC CTG GAA TTG GGT GGC 
Arg Ala Ala Ala Asp Asn Leu Val Pro Val Thr Leu Glu Leu Gly Gly 
345 350 355 360 

AAA TCG CCG GTG ATC GTT TCC CGC AGT GCA GAT ATG GCG GAC GTT GCA 
Lys Ser Pro Val lie Val Ser Arg Ser Ala Asp Met Ala Asp Val Ala 
365 370 375 

CAA CGG GTG TTG ACG GTG AAA ACC TTC AAT GCC GGG CAA ATC TGT CTG 
Gin Arg Val Leu Thr Val Lys Thr Phe Asn Ala Gly Gin He Cys Leu 
380 385 390 

GCA CCG GAC TAT GTG CTG CTG CCG GAA GAA TCG CTG GAT AGC TTT GTC 
Ala Pro Asp Tyr Val Leu Leu Pro Glu Glu Ser Leu Asp Ser Phe Val 
395 400 405 

GCC GAG GCG ACG CGC TTC GTG GCC GCA ATG TAT CCC TCG CTT CTA GAT 
Ala Glu Ala Thr Arg Phe Val Ala Ala Met Tyr Pro Ser Leu Leu Asp 
410 415 420 

AAT CCG GAT TAC ACG TCG ATC ATC AAT GCC CGA AAT TTC GAC CGT CTG 
Asn Pro Asp Tyr Thr Ser lie He Asn Ala Arg Asn Phe Asp Arg Leu 



CAT CGC TAC CTG ACT GAT GCG CAG GCA AAG GGA GGG CGC GTC ATT GAA 

His Arg Tyr Leu Thr Asp Ala Gin Ala Lys Gly Gly Arg Val He Glu 

445 450 455 

ATC AAT CCT GCG GCC GAA GAG TTG GGG GAT AGT GGT ATC AGG AAG ATC 

He Asn Pro Ala Ala Glu Glu Leu Gly Asp Ser Gly lie Arg Lys He 

460 465 470 

GCG CCC ACT TTG ATC GTG AAT GTG TCG GAT GAA ATG CTG GTC TTG AAC 

Ala Pro Thr Leu lie Val Asn Val Ser Asp Glu Met Leu Val Leu Asn 

475 480 485 

GAG GAG ATC TTT GGT CCG CTG CTC CCG ATC AAG ACT TAT CGT GAT TTC 

Glu Glu He Phe Gly Pro Leu Leu Pro He Lys Thr Tyr Arg Asp Phe 

490 495 500 

GAC TCG GCT ATC GAC TAC GTC AAC AGC AAG CAG CGA CCA CTT GCC TCG 

Asp Ser Ala He Asp Tyr Val Asn Ser Lys Gin Arg Pro Leu Ala Ser 

505 510 515 520 

TAC TTC TTC GGC GAA GAT GCG GTT GAG CGT GAG CAA GTG CTT AAG CGT 

Tyr Phe Phe Gly Glu Asp Ala Val Glu Arg Glu Gin Val Leu Lys Arg 

525 530 535 

ACG GTT TCG GGC GCC GTG GTC GTG AAC GAT GTC ATG AGC CAT GTG ATG 

Thr Val Ser Gly Ala Val Val Val Asn Asp Val Met Ser His Val Met 

540 545 550 

ATG GAT ACG CTT CCA TTT GGT GGT GTG GGG CAC TCG GGG ATG GGG GCA 
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Met Asp Thr Leu Pro Phe Gly Gly Val Gly His Ser Gly Met Gly Ala 

555 560 565 

TAT CAC GGC ATT TAT GGT TTC CGA ACC TTC AGC CAT GCC AAG CCT GTT 

Tyr His Gly lie Tyr Gly Phe Arg Thr Phe Ser His Ala Lys Pro Val 

570 575 580 

CTC GTG CAA AGT CCT GTG GGT GAG TCG AAC TTG GCG ATG CGC GCA CCC 

Leu Val Gin Ser Pro Val Gly Glu Ser Asn Leu Ala Met Arg Ala Pro 

585 590 595 600 

TAC GGA GAA GCG ATC CAC GGA CTG CTC TCT GTC CTC CTT TCA ACG GAG 

Tyr Gly Glu Ala He His Gly Leu Leu Ser Val Leu Leu Ser Thr Glu 

605 610 615 



(2) ANGABEN ZU SEQ ID NO: 38: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 481 Aminosauren 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 38: 

Met Ser He Leu Gly Leu Asn Gly Ala Pro Val Gly Ala Glu Gin Leu 
15 10 15 

Gly Ser Ala Leu Asp Arg Met Lys Lys Ala His Leu Glu Gin Gly Pro 
20 25 30 

Ala Asn Leu Glu Leu Arg Leu Ser Arg Leu Asp Arg Ala He Ala Met 
35 40 45 

Leu Leu Glu Asn Arg Glu Ala He Ala Asp Ala Val Ser Ala Asp Phe 
50 55 60 

Gly Asn Arg Ser Arg Glu Gin Thr Leu Leu Cys Asp He Ala Gly Ser 



Val Ala Ser Leu Lys Asp Ser Arg Glu His Val Ala Lys Trp Met Glu 

85 90 95 

Pro Glu His His Lys Ala Met Phe Pro Gly Ala Glu Ala Arg Val Glu 

100 105 110 

Phe Gin Pro Leu Gly Val Val Gly Val He Ser Pro Trp Asn Phe Pro 

115 120 125 

He Val Leu Ala Phe Gly Pro Leu Ala Gly He Phe Ala Ala Gly Asn 
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Arg Ala Met Leu Lys Pro Ser Glu Leu Thr Pro Arg Thr Ser Ala Leu 
145 150 155 160 

Leu Ala Glu Leu lie Ala Arg Tyr Phe Asp Glu Thr Glu Leu Thr Thr 
165 170 175 

Val Leu Gly Asp Ala Glu Val Gly Ala Leu Phe Ser Ala Gin Pro Phe 
180 185 190 

Asp His Leu lie Phe Thr Gly Gly Thr Ala Val Ala Lys His He Met 
195 200 205 

Arg Ala Ala Ala Asp Asn Leu Val Pro Val Thr Leu Glu Leu Gly Gly 
210 215 220 

Lys Ser Pro Val He Val Ser Arg Ser Ala Asp Met Ala Asp Val Ala 
225 230 235 240 

Gin Arg Val Leu Thr Val Lys Thr Phe Asn Ala Gly Gin He Cys Leu 
245 250 255 

Ala Pro Asp Tyr Val Leu Leu Pro Glu Glu Ser Leu Asp Ser Phe Val 
260 265 270 



Asn Pro Asp Tyr Thr Ser lie lie Asn Ala Arg Asn Phe Asp Arg Leu 
290 295 300 

His Arg Tyr Leu Thr Asp Ala Gin Ala Lys Gly Gly Arg Val He Glu 

305 310 315 320 

He Asn Pro Ala Ala Glu Glu Leu Gly Asp Ser Gly He Arg Lys He 
325 330 335 

Ala Pro Thr Leu He Val Asn Val Ser Asp Glu Met Leu Val Leu Asn 
340 345 350 

Glu Glu He Phe Gly Pro Leu Leu Pro He Lys Thr Tyr Arg Asp Phe 

355 360 365 

Asp Ser Ala He Asp Tyr Val Asn Ser Lys Gin Arg Pro Leu Ala Ser 
370 375 380 

Tyr Phe Phe Gly Glu Asp Ala Val Glu Arg Glu Gin Val Leu Lys Arg 

385 390 395 400 

Thr Val Ser Gly Ala Val Val Val Asn Asp Val Met Ser His Val Met 
405 410 415 

Met Asp Thr Leu Pro Phe Gly Gly Val Gly His Ser Gly Met Gly Ala 
420 425 430 
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Tyr His Gly He Tyr Gly Phe Arg Thr Phe Ser His Ala Lys Pro Val 
435 440 445 

Leu Val Gin Ser Pro Val Gly Glu Ser Asn Leu Ala Met Arg Ala Pro 
450 455 460 

Tyr Gly Glu Ala lie His Gly Leu Leu Ser Val Leu Leu Ser Thr Glu 

465 470 475 460 



(2) ANGABEN ZU SEQ ID NO: 39: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 1827 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppelstrang 

(D) TOPOLOGIE: linear 

(ii> ART DES MOLEKULS: Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE: NEIN 



(ix) MERKMAL: 

(A) NAME/ SCHLUSSEL : CDS 

(B) LAGE: complement (4.. 1827) 
(D) SONSTIGE ANGABEN : / product= 

"Trans Jcriptions-Aktiva tor- Protein" 
/gene= "tap" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 39: 
CTATTTGTCT AGTGGTCGGC GCGAAATTCG ATAAGAAAGC TGGGCGCGAG TGAGGCCGAG 60 

CCGGCGGGCA GCTTCCGAGA CATTGCCTTT CACCTGGCCC AGAGCATGGC TAATCATCGC 120 

GTCCTCCACT TCTTGCAGCG TCATCGCGCT CAGGTCCTTT GAGTCAAGCG GCGAGTCGAT 180 

TGTGCTGGTC GGTTTGGAGA AGGAAGTACT TGGGCTGCCA GTTTCCTGTG GCTGATTATC 2 40 

TTGAGCGGTG GCCAGGATGC CGCTGGCCCC AATGGAGAAC ATCGGTTGAG TCAGTCGTTC 300 

ACCGCTAGTG AAGAGGT GGC TCACGTCAAT GGCTCCATCC TCCGGAGCGC TGATGACTCC 360 

GCGCTCCACC AAATTTTGAA GCTCCCGGAT GTTTCCTGGA AAGTCGTAGC CAAGCAGGGC 42 0 

ATTGGCTGCA CGTGGAGTGA ATCCGCTGAC CACCCGGCTA TGACGCTGAT TGAAGCGGTG 480 

CAGGAAATAG GTCATCAGGA GGGGAATGTC TTCCTTCCTC TCTCGAAGCG GCGGGAGGTG 540 
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GATCGGGTAA ACATTGAGGC GGAAAAAAAG GTCCTCGCGG AACTCGCCGC GCTGGACGCC 600 

TGCGCGAAGA TCGACATTGG TTGCGGCTAC CACACGGACG TCAACCTTGA GTGTCCTGCT €60 

TCCGCCAACC CGTTCGACCT CCGACTCTTG CAGGGCGCGA AGTAACTTCC CTTGGGCCAC 72 0 

GAGGCTTAGC GTCCCTATCT CGTCAAGGAA TAGTGTGCCG CCCGAAGCGC GCTCGAACCG 7 80 

TCCTGCTCGA GATTGGGTGG CGCCGGTAAA CGCCCCCCGT TCGACGCCGA ACAACTCGGA 8 40 

CTCCATCAGG GTTTCGGGAA TACGTGCGCA ATTGACCGCA ACAAACGGGC CGTCGTGTCT 900 

GGGGCT GAT G CGGTGAAGCA TGCGGGCGAA CATCTCCTTG CCCACACCTG ATTCACCCGT 960 

AAACAGTACC GTCGCCTCCG TGGGTGCTAC GCGCTTCAGC ATGTGGCAGG CAGCATTGAA 1020 

TGCCGAGGAA ATTCCCACCA TGTCGTGTTC CGATGCAGTG CTTGAGTCTG CGGCGGAGTG 1080 

AT GGGGAGT G TTCCTTTGTC CCTGCTGCGT TCTTCGTCTC TGCGGCGTGC TTGGTTGCCG 1140 

ACAAATGGTT GCGCTAAGCG CCGCCAAGTC CTCTTCGGCG TCTTCCCATT CTTCCGCTGG 12 00 

CTTGCCGATC AT GCGGCAGA TCTGCGAACC CGTGGAGCGG CATTCCACCT CTCGGTAAAG 12 60 

GAT GAGGCGA CCAACCAGCG CGGACGTATA GCCAATGGCA TAACCCGTCT GCGTC CAGCA 1320 

CGCGGGCTCG GTGCCGATGC CGTAGTGCGC AATATGTTCA TCATCTT CGC TCGAATGGTG 1380 

CCAGAGGAAT TCGCCGTAGT AGGTCCCCAA ATCCATGTCG AAGTCGAAGT GGATCGGCTC 144 0 

CAC GCGT ACT GCGCCTTCCA GAGAGTGCAA GTTCGGGCCG GCGGCAAATA GGGAGAGCGG 1500 

ATCGGCGTTG CTGAAGCGCT CCTTCAGAAG GGCGGCATCT TTGGCGCCGC AGTGGTAACC 15 60 

GGTTCGCAGC ATGATTCCGC GGGCGCGGGC GAAGCCCACG CTTTCAATTA ATTCGCGTCG 162 0 

CAATGCACCC AGT CCGCTGC TGTGGAGGAG CAGCATTCGC GCGCCGTTCA ACCAGATGCG 1680 

TCCATCGCCA GGGCTGAAAA GGAGGGATTC AGTGAGGTCA TGAAGGGAGG GGACGGCGCC 17 4 0 

TGGCTCCAAT TGCTCGATGG CGCCGCGATT GAGTGTCTTG GGCGCGGTCT TGGAGAGTTC 18 00 

GGCTAGGGAG ATAAATTTGC TGGCCAT 18 27 

(2) ANGABEN ZU SEQ ID NO: 40: 

(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 608 Aminosauren 

( B) ART: Aminosaure 
(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKtiLS: Protein 

(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 40: 
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Met Ala Ser Lys Phe He Ser Leu Ala Glu Leu Ser Lys Thr Ala Pro 

15 10 15 

Lys Thr Leu Asn Arg Gly Ala He Glu Gin Leu Glu Pro Gly Ala Val 

20 25 30 

Pro Ser Leu His Asp Leu Thr Glu Ser Leu Leu Phe Ser Pro Gly Asp 
35 40 45 

Gly Arg He Trp Leu Asn Gly Ala Arg Met Leu Leu Leu His Ser Ser 
50 55 60 

Gly Leu Gly Ala Leu Arg Arg Glu Leu He Glu Ser Val Gly Phe Ala 



Arg Ala Arg Gly He Met Leu Arg Thr Gly Tyr His Cys Gly Ala Lys 

85 90 95 

Asp Ala Ala Leu Leu Lys Glu Arg Phe Ser Asn Ala Asp Pro Leu Ser 

100 105 110 

Leu Phe Ala Ala Gly Pro Asn Leu His Ser Leu Glu Gly Ala Val Arg 

115 120 125 

Val Glu Pro He His Phe Asp Phe Asp Met Asp Leu Gly Thr Tyr Tyr 

130 135 140 

Gly Glu Phe Leu Trp His His Ser Ser Glu Asp Asp Glu His He Ala 

145 150 155 160 

His Tyr Gly He Gly Thr Glu Pro Ala Cys Trp Thr Gin Thr Gly Tyr 

165 170 175 



Glu Val Glu Cys Arg Ser Thr Gly Ser Gin He Cys Arg Met lie Gly 
195 200 205 

Lys Pro Ala Glu Glu Trp Glu Asp Ala Glu Glu Asp Leu Ala Ala Leu 
210 215 220 

Ser Ala Thr He Cys Arg Gin Pro Ser Thr Pro Gin Arg Arg Arg Thr 
225 230 235 240 

Gin Gin Gly Gin Arg Asn Thr Pro His His Ser Ala Ala Asp Ser Ser 
245 250 255 

Thr Ala Ser Glu His Asp Met Val Gly He Ser Ser Ala Phe Asn Ala 
260 265 270 

Ala Cys His Met Leu Lys Arg Val Ala Pro Thr Glu Ala Thr Val Leu 
275 280 285 

Phe Thr Gly Glu Ser Gly Val Gly Lys Glu Met Phe Ala Arg Met Leu 
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His Arg lie Ser Pro Arg His Asp Gly Pro Phe Val Ala Val Asn Cys 
305 310 315 320 

Ala Arg He Pro Glu Thr Leu Met Glu Ser Glu Leu Phe Gly Val Glu 
325 330 335 

Arg Gly Ala Phe Thr Gly Ala Thr Gin Ser Arg Ala Gly Arg Phe Glu 
340 345 350 

Arg Ala Ser Gly Gly Thr Leu Phe Leu Asp Glu He Gly Thr Leu Ser 
355 360 365 

Leu Val Ala Gin Gly Lys Leu Leu Arg Ala Leu Gin Glu Ser Glu Val 
370 375 380 

Glu Arg Val Gly Gly Ser Arg Thr Leu Lys Val Asp Val Arg Val Val 
385 390 395 400 

Ala Ala Thr Asn Val Asp Leu Arg Ala Gly Val Gin Arg Gly Glu Phe 
405 410 415 

Arg Glu Asp Leu Phe Phe Arg Leu Asn Val Tyr Pro lie His Leu Pro 
420 425 430 

Pro Leu Arg Glu Arg Lys Glu Asp He Pro Leu Leu Met Thr Tyr Phe 
435 440 445 

Leu His Arg Phe Asn Gin Arg His Ser Arg Val Val Ser Gly Phe Thr 
450 455 460 

Pro Arg Ala Ala Asn Ala Leu Leu Gly Tyr Asp Phe Pro Gly Asn He 
465 470 475 480 

Arg Glu Leu Gin Asn Leu Val Glu Arg Gly Val He Ser Ala Pro Glu 
485 490 495 

Asp Gly Ala He Asp Val Ser His Leu Phe Thr Ser Gly Glu Arg Leu 

500 505 510 

Thr Gin Pro Met Phe Ser He Gly Ala Ser Gly He Leu Ala Thr Ala 
515 520 525 

Gin Asp Asn Gin Pro Gin Glu Thr Gly Ser Pro Ser Thr Ser Phe Ser 
530 535 540 

Lys Pro Thr Ser Thr He Asp Ser Pro Leu Asp Ser Lys Asp Leu Ser 
545 550 555 560 

Ala Met Thr Leu Gin Glu Val Glu Asp Ala Met He Ser His Ala Leu 
565 570 575 

Gly Gin Val Lys Gly Asn Val Ser Glu Ala Ala Arg Arg Leu Gly Leu 
580 585 590 
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Thr Arg Ala Gin Leu Ser Tyr Arg lie Ser Arg Arg Pro Leu Asp Lys 
595 600 605 



(2) ANGABEN ZU SEQ ID NO: 41: 



(i) SEQUENZKENNZEICHEN: 

(A) LANGE: 768 Basenpaare 

(B) ART: Nucleotid 

(C) STRANGFORM: Doppe 1st rang 

(D) TOPOLOGIE: linear 

(ii) ART DES MOLEKULS : Genom-DNA 
(iii) HYPOTHETISCH: NEIN 
(iv) ANTISENSE : NEIN 



(ix) MERKMAL: 

(A) NAME/SCHLUSSEL: CDS 

(B) LAGE.-1..765 

(D) SONSTIGE ANGABEN: /product= 

"Coniferylalkohol -Dehydrogenase" 
/gene= "cadh" 



(xi) SEQUENZBESCHREIBUNG: SEQ ID NO: 41: 

ATG CAA CTG ACC AAC AAG AAA ATC GTC GTC ACC GGA GTG TCC TCC GGT 

Met Gin Leu Thr Asn Lys Lys lie Val Val Thr Gly Val Ser Ser Gly 

610 615 620 

ATC GGT GCC GAA ACT GCC CGC GTT CTG CGC TCT CAC GGC GCC ACA GTG 

lie Gly Ala Glu Thr Ala Arg Val Leu Arg Ser His Gly Ala Thr Val 
625 630 635 640 

ATT GGC GTA GAT CGC AAC ATG CCG AGC CTG ACT CTG GAT GCT TTC GTT 

lie Gly Val Asp Arg Asn Met Pro Ser Leu Thr Leu Asp Ala Phe Val 
645 650 655 

CAG GCT GAC CTG AGC CAT CCT GAA GGC ATC GAT AAG GCC ATC TCT CAG 

Gin Ala Asp Leu Ser His Pro Glu Gly He Asp Lys Ala lie Ser Gin 
660 665 670 

CTG CCG GAG AAA ATT GAC GGA CTC TGC AAT ATC GCC GGG GTG CCC GGC 

Leu Pro Glu Lys He Asp Gly Leu Cys Asn He Ala Gly Val Pro Gly 
675 680 685 

ACT GCC GAT CCT CAG CTC GTC GCA AAC GTG AAC TAC CTG GGT CTA AAG 

Thr Ala Asp Pro Gin Leu Val Ala Asn Val Asn Tyr Leu Gly Leu Lys 

690 695 700 

TAT CTG ACC GAG GCA GTC CTG TCG CGC ATT CAA CCC GGT GGT TCG ATT 

Tyr Leu Thr Glu Ala Val Leu Ser Arg He Gin Pro Gly Gly Ser He 
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5 CTT GGC < 
. Leu Gly J 



TTG CAT AAG C 



; CTT AAG C 
> Leu Lys c 



AAA GAA GCA C 
Lys Glu Ala I 
770 

ATG AGG ACG 1 
Met Arg Thr £ 
785 

ACT C 



i GGG J 
i Gly : 



t GTG GCC ( 
> Val Ala 1 
760 

: TGG TCT < 

775 



: GAG TGG CCG GCC 
i Glu Trp Pro Ala 
730 

' GGA TTC TCC GAA 
. Gly Phe Ser Glu 



: GAA TTC TGC TAG 

> Glu Phe cys Tyr 



i GTT CAG GCG CAG 
i Val Gin Ala Gin 

780 

I ATC GCC CCC GGC 
> lie Ala Pro Gly 



: ATG CTG GGT GAA 
: Met Leu Gly Gin 



CGC CTT CAG 
Arg Leu Gin 
735 

GGC CAG GCA 
Gly Gin Ala 
750 

CAG TAT TTC 

Gin Tyr Phe 



GAA TGG TTC 
Glu Trp Phe 

CCT GTA TTC 
Pro Val Phe 
800 

GAG CGG ACT 
Glu Arg Thr 



; GCG GAC GCT CAT C 
l Ala Asp Ala His ; 

820 



: ATA AAT ATT CCA C 
' He Asn lie Pro \ 

850 



: GAT GAA GTG 
i Asp Glu Val 



: ATG TGT ( 
; Met Cys I 
840 

; GAC GGA 
. Asp Gly 
855 



' GAG GAG TCA CGT 1 
. Glu Glu Ser Arg ' 
845 



GGT 1 
Gly 1 



: TAC GTG 
: Tyr Val 



ANGABEN ZU SEQ ID NO: 42: 

(i! SEQUENZKENNZEICHEN: 

(A) LANGE: 2 55 Aminos; 

(B) ART: Aminosaure 
(D) TOPOLOGIE: linear 



Met Gin Leu Thr Asn Lys Lys He Val Val Thr Gly Val Ser Ser Gly 
15 10 15 

lie Gly Ala Glu Thr Ala Arg Val Leu Arg Ser His Gly Ala Thr Val 
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lie Gly Val Asp Arg Asn Met Pro Ser Leu Thr Leu Asp Ala Phe Val 
35 40 45 

Gin Ala Asp Leu Ser His Pro Glu Gly He Asp Lys Ala He Ser Gin 
50 55 60 

Leu Pro Glu Lys He Asp Gly Leu Cys Asn He Ala Gly Val Pro Gly 
65 70 " 80 

Thr Ala Asp Pro Gin Leu Val Ala Asn Val Asn Tyr Leu Gly Leu Lys 
85 90 95 

Tvr Leu Thr Glu Ala Val Leu Ser Arg He Gin Pro Gly Gly Ser He 

100 1<> 5 110 

Val Asn Val Ser Ser Val Leu Gly Ala Glu Trp Pro Ala Arg Leu Gin 



115 120 

Leu His 



125 



Lys Glu Leu Gly Ser Val Val Gly Phe Ser Glu Gly Gin Ala 
130 135 140 

Trp Leu Lys Gin Asn Pro Val Ala Pro Glu Phe Cys Tyr Gin Tyr Phe 
145 150 155 160 

Lys Glu Ala Leu lie Val Trp Ser Gin Val Gin Ala Gin Glu Trp Phe 
165 l^O 175 

Met Arg Thr Ser Val Arg Met Asn Cys He Ala Pro Gly Pro Val Phe 
180 185 190 

Thr Pro He Leu Asn Glu Phe Val Thr Met Leu Gly Gin Glu Arg Thr 
195 200 205 

Gin Ala Asp Ala His Arg He Lys Arg Pro Ala Tyr Ala Asp Glu Val 
210 215 220 

Ala Ala Val He Ala Phe Met Cys Ala Glu Glu Ser Arg Trp He Asn 
225 230 235 

Gly lie Asn He Pro Val Asp Gly Gly Leu Ala Ser Thr Tyr Val 
245 250 255 



50 



55 
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Anlage zum Sequenzprotokoll 



5 


SEQ ID NO 2 


ORF 1 




4 


Van A 




6 


Van B 


10 


8 


FDH 




10 


GCS 




12 


CytC 


15 


14 


ORF 5 




16 


Ehy B 




18 


ORF 2 




20 
22 


ADH 
LSD 




24 


ORF 3 




26 


Ech 


25 


28 


VDH 




30 


FCS 




32 


Aat 


30 


34 


Mac 




36 


Trp 




38 


Caldh 


35 


40 
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Patentanspruche 

1. Syntheseenzyme fur Coniferylalkohol, Coniferylaldehyd, Ferulasaure, Vanillin und Vanillinsaure aus Eugenol. 

45 

2. Syntheseenzyme gemafS Anspruch 1 ausgewahlt aus der Gruppe 

a) Eugenol- Hydroxylase 

b) Coniferylalkohol-Dehydrogenase 
so c) Coniferylaldehyd-Dehydrogenase 

d) Ferulasauredeacylase. 

e) Vanillin-Dehydrogenase 

3. DNA, codierend fur die Enzyme gemafJ Anspruch 1 und 2 sowie Teilsequenzen und funktionelle Aquivalente 
55 davon. 

4. Cosmidklone, enthaltend die DNA gemaB Anspruch 3. 
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5. Vektoren, enthaltend DNA nach Anspruch 3. 

6. Mikroorganismen, transformiert mit DNA gemaR Anspruch 3. 

5 7. Verwendung von DNA nach Anspruch 3 zur Transformation von Mikroorganismen. 

8. Verwendung von Mikroorganismen gemaR Anspruch 6 zur Herstellung von Coniferylalkohol, Coniferylaldehyd, 
Ferulasaure, Vanillin und Vanillinsaure. 

to 9. Verfahren zur Herstellung von Coniferylalkohol aus Eugenol, dadurch gekennzeichnet, daR die Reaktion in Anwe- 
senheit von Eugenol-Hydroxylase stattfindet. 

1 0. Verfahren zur Herstellung von Coniferylaldehyd aus Coniferylalkohol, dadurch gekennzeichnet, da(3 die Reaktion 
in Anwesenheit von Coniferylalkohol-Dehydrogenase stattfindet. 

15 

11. Verfahren zur Herstellung von Ferulasaure aus Coniferylaldehyd, dadurch gekennzeichnet, daR die Reaktion in 
Anwesenheit von Coniferylaldehyd-Dehydrogenase stattfindet. 

12. Verfahren zur Herstellung von Vanillin aus Ferulasaure, dadurch gekennzeichnet, daR die Reaktion in Anwesenheit 
20 von Ferulasauredeacylase stattfindet. 

13. Verfahren zur Herstellung von Vanillinsaure aus Vanillin, dadurch gekennzeichnet, daR die Reaktion in Anwesen- 
heit von Vanillin-Dehydrogenase stattfindet. 
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